日本オラクルが「Oracle Secure Enterprise Search」を,グーグルが「Google検索アプライアンス」を,住友電工情報システムが「QuickSolution」を提供するなど,製品の動きは活発である。

 メーカーの動きが活発化しているのは,検索エンジンに対する企業のニーズが再燃しているからだ。以前は「社内のナレッジを生かしたい」など漠然とした理由で検索エンジンを導入する事例も多かったが,最近では「RDB内の顧客マスターと,グループウエア内の顧客サポート情報,ファイル・サーバー上の営業日誌をくし刺しにして検索し,顧客管理システムに統合したいなど,業務上の明確な意図に基づいて導入されている」(ジャストシステム システム営業推進グループ 商品企画・推進 三谷安世氏)。

[知る]構成要素は三つ,言語解析の方法に特性あり

 ここで採り上げる検索エンジンは,次の3要素で構成される(図1)。(1)ファイル・サーバーやメール・サーバーなどを走査し,点在する情報の索引(=インデックス)を作成する「クローラ」,(2)利用者から検索したいキーワード(=検索語)を受け付けてインデックスから所在情報を探し出す「サーチャ」,(3)発見した所在情報をランキングしたりグラフ化したりして,利用者に表示する「ビジュアライザ」――である。松下電器産業の「Pana Search/KB」など検索対象のシステムに組み込んで使う製品は,(1)のクローラを搭載しないので対象外とした。

図1●検索エンジンは大きく三つの要素で構成される
図1●検索エンジンは大きく三つの要素で構成される
(1)複数のシステムに点在する情報の所在を確認して索引(=インデックス)を作る「クローラ」,(2)利用者が指定した検索語や検索文と合致するターゲットを索引から探し出す「サーチャ」,(3)探し出した結果を並べ替えたりグラフ化したりして分かりやすく表示する「ビジュアライザ」である。この数年は,(2)や(3)での競争が激化しており,製品ごとの差も大きい
[画像のクリックで拡大表示]

 検索エンジンで重要なのは,検索結果に「検索漏れ(本来は必要なのに検索できなかった情報)」と「ノイズ(本来は不要なのに検索されてしまった情報)」の両方が少ないことである。その鍵を握っているのが,言語解析とランキングの仕組み。言語解析はクローラとサーチャで,ランキングはビジュアライザで,それぞれ使用する。

ノイズ多いNグラム,少ない意味解析

 言語解析は,検索対象データを解析したり,利用者が指定した検索語を解析したりするときに使う。主な方式は,「Nグラム方式」「形態素解析方式」「意味解析方式」の3種類で,それぞれ検索漏れやノイズの出方が異なる(図2)。

図2●言語解析の方式と特徴
図2●言語解析の方式と特徴
検索対象や検索語の解析に使う技術は,「Nグラム方式」「形態素解析方式」「意味解析方式」の3種類に大別でき,それぞれ特徴がある(製品によっては弱点を解消している場合もある)
[画像のクリックで拡大表示]

 簡単に説明すると,Nグラム方式は文字や単語の組み合わせにインデックスを付ける。そのため検索語と一致するデータは漏れなく探せるが,「京都」で検索したときに「東京都」などのノイズを含んでしまう。

 これに対して形態素解析方式は,辞書に基づき文章を読み解きインデックスを付ける。「京都」と「東京都」の区別はつきノイズは減るが,辞書に登録されていない検索語は検索結果から漏れてしまう。

 意味解析方式は,形態素解析方式を発展させたもの。検索文の意味や概要と一致するかどうかを判定するため,形態素解析方式よりも検索漏れやノイズは少なくなる。だが,形態素解析方式のように辞書にない検索語は漏れてしまう。

 これらは一般論であり,実際の製品は各方式の弱点を補うべく独自の工夫を凝らしている。例えば日本IBMの「WebSphere Information Integrator OmniFind Edition」はNグラム方式と形態素解析方式を併用しているし,ジャストシステムの「ConceptBase」は形態素解析方式に加え,検索漏れのない言語解析の別方式(Suffix-Array方式)もサポートする。

 次回は,言語解析と並ぶもう一つの技術「ランキング」について説明する。