ブログで使われる言葉は、従来の手法では解析できないことが多い。新技術を開発するには、サンプルとなる言語データが必要だ
ブログで使われる言葉は、従来の手法では解析できないことが多い。新技術を開発するには、サンプルとなる言語データが必要だ
[画像のクリックで拡大表示]

 国立情報学研究所(NII)と国立国語研究所は2008年4月23日、ヤフーが運営するブログサービス「Yahoo!ブログ」のデータを研究用途で無償提供すると発表した。大学などの研究機関には、NIIから2008年7月ごろに提供を始める。一方で国立国語研究所は、研究者ではない一般の人向けにも公開できるよう準備を進める。2011年度には、同研究所が公開中の日本語データ「現代日本語書き言葉均衡コーパス」において利用できるようにする予定。

 ブログのようなインターネット上のコンテンツは、現代の日本語を研究する上で非常に重要なデータ。また情報検索や情報分析、情報活用などの技術開発にも役立つ。区切りがあいまい、顔文字が多用されるなどブログに使われる言葉は従来の書き言葉とは異なる点が多く、新たな解析手法を開発する必要があるからだ。だが従来は、プロバイダーなどインターネットサービス提供業者が企業内で利用する場合が多く、研究用にまとまったデータとして入手するのは難しかった。

 こうした状況を改善すべく、NIIとヤフーは2007年3月に「Yahoo!知恵袋」のデータ提供を開始していた。すると研究機関からは、ユーザーが作成するコンテンツとして代表的な存在であるブログのデータに対する強い要望が寄せられたという。そこで今回、NIIと国立国語研究所がヤフーとブログデータの研究利用についての合意を交わし、無償での提供が可能になった。

 対象となるのは、Yahoo!ブログに2008年4月25日以降に投稿されるブログ。ここから、最低で500万語分のサンプルを抽出する。またサンプルの抽出は、インターネット全体に公開されている記事からのみ、季節ごとに数回行う予定という。

 ただしブログには、個人情報や誹謗中傷など公開にそぐわない情報が含まれる可能性がある。こうした情報をどのように取り扱うかについて、NIIや東京大学、京都大学などの専門家が2008年7月までに集中的に共同研究を行い、ガイドラインを策定する予定という。

 ちなみにヤフーでは、Yahoo!ブログなどのサービスを利用する際に必要となる「Yahoo! JAPAN ID」の取得時に、研究目的を含めたデータ利用の可能性があることを利用条件に掲げている。また、4月25日以降のサンプル抽出に備え、ブログ作成画面などを通じてユーザーに分かりやすい形で告知をしていく予定という。