日立製作所、大量のニュース記事から賛否の根拠を抽出できるAI技術を開発

日経コンピュータ

2015.07.23

　日立製作所は、賛否が分かれる議題に対し、大量のニュース記事を解析して賛成・反対の根拠を抽出できる人工知能（AI）の基礎技術を開発した。人が賛否を判断する基準になる「価値」をあらかじめデータベース化することで、多様な視点から根拠や理由を提示できる。将来は、公開レポートや企業内文書、病院の電子カルテなどを解析し、業務を支援するシステムへの応用を目指す。

　東北大学大学院情報科学研究科の乾・岡崎研究室の協力のもとで開発した。日立製作所は、この成果を2015年7月26日～31日に中国で開催される計算言語学の国際会議「ACL-IJCNLP 2015」で発表する。

「価値」を体系化した辞書を作成

　同社は今回のAI技術の開発に当たり、まず多数のテーマについて賛成・反対の意見を登録したディベートの英文データベース「Debatabase」を基に、人やコミュニティが賛否を判断する基準にしている健康や経済、治安などの「価値」をリスト化した。

　さらに、それぞれの価値と深い関連がある単語をデータベースから自動抽出し、その価値に対してポジティブか、ネガティブかを振り分けた「価値体系辞書」を作成した。例えば「健康」という価値に対し、「運動」という単語はポジティブ、「肥満」はネガティブに振り分ける。

　この価値体系辞書を基にニュース記事のテキストを解析し、ある事象が「価値」に与えた影響がポジティブか、ネガティブかを示す相関関係データベースを生成した。例えば、「騒音が健康被害をもたらす」という記事を元に、「騒音は健康という価値にネガティブな影響を与える」ことをデータベースに登録する。約970万件の英文ニュース記事から、約2億5千万の要素からなる相関関係データベースを生成した。

　この価値体系辞書と相関関係データベースを使い、与えられた議題について、関連が高い複数の「価値」を決定し、関連のある単語を含むニュース記事を抽出。記事中にある引用元の記載、数字データの有無、表現などの指標から、議題との関連性を判定する（図）。

図●与えられた議題について複数の「価値」を選定し、賛成・反対の根拠や理由を抽出する

[画像のクリックで拡大表示]

　日立製作所は、議題を与えられてから根拠・理由を提示するまでの処理速度を高めるため、複数のアルゴリズムを非同期・分散的に実行できるアーキテクチャーを構築した。一つのアルゴリズムを並列に分散処理すると同時に、すべての処理の終了を待たずに次のプロセスに移行する非同期的な処理を行うことで、指定した時間内に根拠を抽出できる。