NIIの東倉洋一副所長
NIIの東倉洋一副所長
[画像のクリックで拡大表示]
Q&Aサイトの言葉は、書き言葉と話し言葉の中間
Q&Aサイトの言葉は、書き言葉と話し言葉の中間
[画像のクリックで拡大表示]
今後は他の企業にもデータ提供を呼びかける
今後は他の企業にもデータ提供を呼びかける
[画像のクリックで拡大表示]

 国立情報学研究所(NII)とヤフーは2007年3月6日、ヤフーが運営するQ&A情報サイト「Yahoo!知恵袋」のデータに関する研究利用契約を締結したと発表した。ヤフーは、Yahoo!知恵袋に蓄積されたデータのうち約3割に当たる情報(質問約311万件、回答約1347万件)をNIIに無償で提供する。NIIは同研究所での研究活動にこのデータを活用するほか、情報検索などの研究者への無償提供も予定。情報検索、分析などを対象とした研究開発促進の一助になりそうだ。

 ブログやQ&Aサイトなど、ユーザーによって発信されるデータは、研究対象としての重要性を急速に増している。「書き言葉と話し言葉の中間」(NIIの東倉洋一副所長)とも言える新しい種類の言語で書かれているため、既存の言語解析手法が通用しない。データ量も膨大で、「そこから新しい価値をくみ出すことが求められている」(東倉氏)。欲しい情報を探すための検索だけでなく、情報の信頼性分析や、評判や噂、世論の抽出といった技術に対するニーズが高まっている。

 だが、従来はこうしたデータを研究で利用することが難しかった。もちろん研究者自らが検索エンジンなどを使って手当たり次第にデータを集めることはできるが、それはほかの研究者と共有できるデータベースではないため、ほかの研究者から客観的な評価がしにくい。その結果「建設的な議論が生まれにくかった」(ヤフーの岡本真氏)。また、論文に引用する際には著作権問題が発生する。さらに、ブログなどに多く含まれる個人情報の扱いも難しい。

 その点、ヤフーが提供するデータなら、研究者間での共有が可能だ。Yahoo!知恵袋の利用ガイドラインでは研究目的での利用の可能性を明記しているため、著作権などの問題も解決されている。さらに「Yahoo!知恵袋は、ユーザーによる生の情報要求。投稿された質問文から、人々が本当に何を知りたいのかが分かる」(NIIのコンテンツ科学研究系 主幹である大山敬三教授)という点も大きなメリットだ。従来は、検索エンジンに入力された1~3語ほどのキーワードのログを手がかりにするしかなかったため、ユーザーが本当に知りたいことは何なのか把握しにくかったという。

 検索技術に関しては、国家プロジェクトがいくつも始動するなど国内でも研究開発が熱を帯びている。ただ「米国では、研究機関がヤフーやグーグル、マイクロソフトなどの企業とタイアップして研究を進めている。日本は取り残されがちだった」(大山氏)という事情があった。今回のデータ提供はこの状況を一歩前進させるもので、「今回のヤフーとの契約を突破口にして、今後はほかのプロバイダーにもデータ提供を働きかけていく」(東倉氏)予定だ。

 なおNIIでは1997年から、各国の研究チームが集まって検索技術を競い合う「NTCIR」と呼ぶプロジェクトを実施している(関連記事)。このプロジェクトでも、Yahoo!知恵袋のデータを活用する予定だという。