注目の書籍

好評発売中!

IT業界徹底研究就職ガイド2013年版

IT/ネット業界で働くと いうことを分かりやす く解説。2013年3月卒 業の学生向けの1冊。

必聴講座ご紹介

ビッグデータ EXPO 2012春
ビッグデータ時代に備えて〜今検討すべき情報分析基盤の全貌とは

日本マイクロソフト


ビッグデータ EXPO 2012春
ICTを活用した、情報爆発時代の新たな価値創出

NEC


Cloud Days Osaka 2012
会社を強くするためのクラウド×ソーシャル活用術

セールスフォース・ドットコム

業界動向

ニュース

ITpro

辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表

2006/06/15
日川 佳三=ITpro
Sematics代表取締役の吹谷和雄氏
Sematics代表取締役の吹谷和雄氏
[画像のクリックで拡大表示]
Web法律相談アプリケーションのサンプル
Web法律相談アプリケーションのサンプル
[画像のクリックで拡大表示]

 Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と意味解析の機能を備えた。

 同社の言語解析エンジンの特徴は,語句の辞書データを用いずに解析を行うこと。辞書が必要ないため,高速に処理できるほか,フット・プリントをコンパクトにできる。「(パソコンを使って)1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」(代表取締役の吹谷和雄氏)という。

 同社が開発した第1号のエンジンであるAutomaton Parserは,統計的確率論によって,形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し,文節の係り受けを解析する。同エンジンを実装したアプリケーションとしては,ソースネクストが「ズバリ要約」という名前で2006年3月に1980円で出荷している。文章を短く要約するためのソフトである。

 今回発表したPerceptron EngineはAutomaton Parserの上位版にあたり,従来の統計的確率論による形態素解析と構文解析に加えて,トポロジー(位相幾何学)を用いることにより,文脈解析と意味解析を行う。文脈解析では,代名詞が指しているものの特定や省略された代名詞の補完,文と文との関係などを調べる。意味解析では,MPEG-7準拠のSematagと呼ぶ深層格情報のタグを付与する。Sematagにより,例えば,言語同士で文章を翻訳する際の中間言語を表現できるようになる。

 文脈解析と意味解析では,語句同士の上位・下位集合の関係や同義語などの関連性を調べる。従来はベクトル空間での距離によって関連性を調べるのが一般的だったが,ベクトル空間上で距離が近いか遠いかを分けるしきい値を設定しなければならず,しきい値の設定が難しかった。このため,位相空間の上で判断するようにしたという。

 デモでは,新聞記事1本をPerceptron Engineにかけて,形態素解析,構文解析,文脈解析,意味解析を行った。デモに用いたエンジンのサイズは,学習させた状態で200Mバイト未満という。さらに,応用例として,Web経由での無人法律相談サイトのサービス・イメージをサンプルのWeb画面で示した。過去の判例データを学習させることにより,人間とコンピュータとの対話を通して法律相談の質問を詰めていき,回答を出力するというアプリケーションである。このほか,スパム・フィルタなどにも応用できるとしている。

 2006年の売上見込額は8〜10億円。同社では,米国からの引き合いが多く,2007年以降は英語市場で伸びると予測している。2007年の売上額は40億円超,2008年には120億円弱を見込む。「英語は世界中で使われており,英語の文献を要約したい需要が大きい」(吹谷和雄氏)。なお,Perceptron Engineの名前はMarvin Minsky教授の著書であるパーセプトロンから取ったという。

この記事に対するfacebookコメント

nikkeibpITpro

読みましたか? 〜 未読記事をご紹介