写真1 Yahoo!知恵袋コンテンツの研究利用のイメージ
写真1 Yahoo!知恵袋コンテンツの研究利用のイメージ
[画像のクリックで拡大表示]

 国立情報学研究所(NII)は3月6日,ヤフーが運営するQ&Aサイト「Yahoo!知恵袋」のコンテンツを研究・開発者向けに無料で提供するプログラムを発表した。ヤフーがYahoo!知恵袋のデータをNIIに無償提供。NIIは2007年4月から研究・開発者向けに同データを配布する。実サービスのテキスト・データを検索エンジン開発のテスト・データとして自由に使える環境を整えることで,「キューバの大統領は誰?」といった日本語の話し言葉による検索の精度向上など,国内における検索技術開発の振興を狙う。

 Yahoo!知恵袋は,質問に対して参加者が回答を寄せる形式のサービス。「質問が2~3語のキーワードではなく,文章である点が研究・開発には重要」(NII コンテンツ科学研究系の大山敬三主幹)という。また質問者が「役に立った」と判断した回答に「ベストアンサー」を決め,Q&A全体を通して有益とした閲覧者の人数を「お役立ち度」として表示するなど,検索エンジンの性能指標の一つである「もっともらしさ」(尤度:ゆうど)をあらかじめ含んだデータであるという価値もある。

 NIIがヤフーから提供を受けるデータは,2004年4月7日から2005年の10月31日までの試行期間中に集まったQ&Aコンテンツ。「本サービスではデータの構造が変わっているため,2005年11月以降のデータの提供については今後検討する」(ヤフー 検索事業部企画部ソーシャルサーチ企画の岡本真リーダー)。ヤフーは当初から学術的な研究・開発用途への貢献を視野に,「利用規約やサイトのトップ画面で,個人情報を除いたコンテンツに関して研究目的の利用があり得る旨を告知してきた」(ヤフーの岡本リーダー)という。

 NII自身も,NIIが主催する「情報検索システム評価用テストコレクション構築プロジェクト」(NTCIR:エンティサイル)でYahoo知恵袋!のデータを利用する(写真1)。NTCIRの目的は,検索や要約の自動生成,尤度の算出といった情報アクセス基盤技術の研究・開発時に使うテスト用のテキスト・データの作成と,それによる検索技術の横並び評価の実現。学術研究者や企業の開発者が同じテスト・データを対象に検索エンジンの性能を計測することで,検索精度や速度を横並びで比較できる環境を整える。

 今回配布するテスト・データは原則として誰でも利用が可能だが,まずは文部科学省が公募する検索技術開発プロジェクト「情報爆発時代に向けた新しいIT基盤技術の研究」での活用を進める。同プロジェクトと目的が同じものには経済産業省の「情報大航海プロジェクト」があるが,「今の段階では接点はない。ただ話があれば応じたい」(国立情報学研究所の東倉洋一副所長)とした。