メインコンテンツまでスキップ

同義語や名詞を登録したい

はじめに

本書では、同義語・代表語の登録を行う手順を説明します。

以下の手順を順に実施することで、チャット画面から入力した質問に含まれる同義語を代表語に変換することができます。

本書の内容は以下の通りです。

  • 名詞の登録
    ※必要な場合のみ

  • 同義語の登録

  • コーパス学習データの整形

操作説明

名詞の登録

同義語・代表語として登録することができるのは名詞のみです。
そのため「マッチング制度」のような、「マッチング」と「制度」を組み合わせた語は、そのままでは同義語・代表語に設定できません。
そのような語や一般的でない名詞を同義語・代表語に登録する場合、事前に名詞登録を行う必要があります。
※同義語を個別に登録する際は、名詞として登録が必要なキーワードが入力された場合、同義語の個別登録のタイミングで名詞が自動登録されます。

管理画面で名詞を登録します。

  • 管理画面を開きます。

  • 左のメニューから「辞書」をクリックします。

  • 「名詞」タブをクリックします。

名詞の個別登録

名詞を個別に登録する場合は、以下の手順を実施します。

  • 登録ボタンをクリックします。

  • 名詞入力欄に登録したい単語を入力します。

  • 登録ボタンをクリックします。

名詞の一括インポート

名詞を一括でインポートする場合は、以下の手順を実施します。

  • インポートボタンをクリックします。

  • ファイル選択をクリックし、インポートしたいファイルを選択します。

  • インポートボタンをクリックします。

  • 辞書更新ボタンをクリックします。

同義語の登録

同義語とその代表語を登録することで、ユーザーのメッセージ中の同義語を代表語に置き換えて回答することができます。

  • 「同義語」タブをクリックします。

同義語の個別登録

同義語を個別に登録する場合は、以下の手順を実施します。

  • 登録ボタンをクリックします。

  • 代表語に登録したい単語を入力します。

  • 同義語に登録したい単語を入力します。

  • 登録ボタンをクリックします。

同義語の一括インポート

同義語を一括でインポートする場合は、以下の手順を実施します。
インポートするファイルは、同義語一覧画面からダウンロードするか、コーパス学習データ作成ツールを用いて作成する必要があります。
以下手順ではコーパス学習データ作成ツールを用いてインポートファイルを作成する方法を説明します。

  • コーパス学習データ作成ツールの「同義語辞書」シートを開きます。

  • 代表語の列に代表語(変換後の単語)を入力します。

  • 同義語の列に同義語(変換対象の単語)を入力します。同義語が複数ある場合は「/」(半角スラッシュ)で区切ってください。

  • コーパス学習データ作成ツールの「MAIN」シートを開きます。

  • 「同義語辞書用csvデータ作成ツール」のマクロ実行ボタンをクリックします。

コーパス学習データ作成ツールと同じフォルダに、同義語辞書インポート用のCSVファイルが作成されます。

  • 同義語一覧画面にて、インポートボタンをクリックします。

  • ファイル選択をクリックしてインポートしたいファイルを選択します。

  • インポートボタンをクリックします。

コーパス学習データの整形

ワークスペースに登録するコーパス学習データ(質問文)に関して、前述した辞書機能を最大限発揮するには、質問文に含まれる対象単語は代表語である必要があります。
そのため、質問文中で同義語登録された単語が使用されることのないよう、代表語への整形を行います。
こうすることで、同義語を含む質問文を複数パターン登録するといったような対応は不要になります。

コーパス学習データの整形には、コーパス学習データ作成ツールを用います。
※「同義語辞書」シートに代表語と同義語が入力されていることが前提です。

  • コーパス学習データ作成ツールの「質問回答データ」シートを開きます。

  • 質問文の列に質問文を入力します。

  • コーパス学習データ作成ツールの「質問回答データ」シートを開きます。

  • 同義語→代表語ボタンをクリックします。

質問文中に含まれる同義語が代表語に置換されます。

その他留意点(Tips)

  • 既にSudachi辞書に存在する単語は名詞登録する必要はありません。

  • 基本的に平仮名だけの単語はSudachi辞書に存在しません。平仮名だけの単語を代表語・同義語として使用したい場合は名詞登録する必要があります。
    ※「中華麺」の平仮名表記を使用したい場合は「ちゅうかめん」を名詞登録します。

  • 代表語、および同義語を登録する際は「代表語が同義語を含む」ような単語は形態素解析器(Sudachi)の正規化が正常に行われない可能性がありますので登録しないでください。例えば以下のようなケースです。
    【代表語】人事総務部、【同義語】人事総務