特定の意味を含む文書の検出で新方式、NECが1.3時間を0.2秒に短縮

ITpro

2013.11.15

図●テキスト含意認識を高速化した新方式の概要（出典：NEC）

[画像のクリックで拡大表示]

　NECは2013年11月14日、大量データから特定の意味を含む文書を検出する“テキスト含意認識”の技術を改善したと発表した。約700万文のテキストデータを処理すると、従来のやり方では約1.3時間かかるが、新方式では0.2秒で終わるという。顧客の声やSNSの反応といった非定型データの分析に向く。

　テキスト含意認識技術とは、二つの文が同じ意味を含むかどうかを判定する技術である。文の表現が異なっても意味が同じものを検出する。例えば、「私はリンゴが好きだ」に対して、「僕はアップルが好物だ」は含意（意味が同じ）であり、「彼はリンゴが好きだが私は嫌いだ」は非含意（意味が異なる）である。

　NECはもともと、テキスト含意認識に強いという。具体的には、単純に単語の一致/不一致を検出するだけでなく、文中における単語の重要度や主語/述語などの文構造を考慮する方式を採用した。これは、単語の重要性で候補を絞るプロセスと、文構造で含意を判定するプロセスで構成する。

　まずは、候補を絞る。同義語も考慮した上で、入力文における重要な単語が、対象テキストにおいても一定以上の割合で出現している場合（被覆率がしきい値を超えた場合）に、含意の候補とする。入力文に含まれる単語の重要度は、自動的に判定する。次に、絞った候補について含意を判定する。文の構造が入力文と異なるかどうかを調べる。文の構造が大きく異なる場合は、意味が異なる可能性が高い。

　今回NECは、最初のプロセスである、候補を絞るやり方を改善した（図）。具体的には、文の重要度（文に含まれる個々の単語の重要度を合計したもの）に着目し、入力文の重要度よりも大幅に低い重要度しか持たない文を、含意の候補から機械的に除外する方式とした。これにより、入力文の重要な単語の被覆率をチェックする手前の段階で、チェック対象を大幅に減らせる。

　新方式が有効である根拠は、「文書の重要度が一定値以下であれば、重要な単語の被覆率もしきい値を超えない」、という関係が成り立つことにある。