文部科学省 国立情報学研究所(NII)は10月8日から、図書の検索ができるWebサイト「Webcat Plus」(http://webcatplus.nii.ac.jp/)を正式に公開する。最大の特徴は、検索のキーワードを単語でなく文章で指定できる「連想検索機能」を備えること。検索対象は、明治時代以前の本から最新のものまで、約235万件の日本語の図書。検索にかかる時間は0.1~0.2秒。

 Webcat Plusは、利用者が入力した文章に含まれる単語を基に、あらかじめ登録された図書の内容や目次を検索。関連性が高いと判断した図書から順に、図書のタイトルや著者名、内容、目次などの情報を表示する。Webcat Plusの構築を手がけたNIIの高野明彦教授は、「例えば、興味のある文章やニュース、論文などの文章を丸ごと検索にかければ、利用者は検索時のキーワードをいちいち考えずに、検索内容に見合った図書を検索できる」と話す。

 NIIはWebcat Plusに先がけ1998年から、全国の大学図書館が所蔵する図書や雑誌を検索できるWebサイト「Webcat」を提供している。ところがWebcatは、単語の部分一致か全体一致でしか検索できないので、「利用者が検索のキーワードを考えなければならなかった。しかし図書を検索するときに、重要な単語が思い出せないことは少なくない。そうしたときに、Webcat Plusの連想検索機能が役立つ」(高野教授)。

 連想検索機能のアルゴリズムはこうだ。Webcat Plusは、約235万件の図書1件ごとに、図書の内容や目次などを表す文章に含まれる単語の種類や出現回数を、圧縮・索引化してサーバーのメモリー上に展開しておく。検索時には、利用者が入力した文章の中に含まれる単語の種類や使用頻度に基づき、メモリー上の図書情報を検索する。この機能を実現するのには、NIIと日立製作所が共同開発したオープン・ソースの連想計算エンジン「GETA」を使っている。GETAのソース・コードは無償で公開されている。

 Webcat Plusのシステム構成は、インテルのXeonプロセサを2個、主記憶を2ギガ・バイト搭載したPCサーバー6台からなる。6台のPCサーバーはクラスタ構成を採る。クラスタ・ソフトや図書の情報を管理するデータベースは、市販の製品を使わずに自前で構築した。OSにはFreeBSDを採用している。

 Webcat Plusが取り扱う図書は現在、日本語の図書に限られる。NIIは今後、外国語の図書や雑誌も検索できるようにする。

大和田 尚孝=日経コンピュータ