公開されたWebサイトで「見れる」を検索したところ
公開されたWebサイトで「見れる」を検索したところ
[画像のクリックで拡大表示]
国立国語研究所で言語資源グループ長を務める前川氏
国立国語研究所で言語資源グループ長を務める前川氏
[画像のクリックで拡大表示]
「風景」と「光景」の使われ方の違いが見えてくる
「風景」と「光景」の使われ方の違いが見えてくる
[画像のクリックで拡大表示]
同研究所は、「KOTONOHA」というプロジェクト名で従来からコーパス構築を手がける
同研究所は、「KOTONOHA」というプロジェクト名で従来からコーパス構築を手がける
[画像のクリックで拡大表示]

 国立国語研究所は2007年5月28日、約1000万語分の日本語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ(約500万語分)と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日本語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」(研究開発部門の前川喜久雄言語資源グループ長)など、一般の人にとっても、日本語の使われ方を知るうえで便利なデータとなりそうだ。

 コーパスは、日本語学や日本語教育はもちろん、自然言語処理のように情報科学分野の技術開発においても重要な役割を果たしている。ただこうした研究開発で有用に利用するには、さまざまなジャンルのデータを偏りなく収集したデータ、いわゆる「均衡コーパス」である必要がある。日本は、英語圏や韓国などと比較しても均衡コーパスの整備が遅れていたが、2006年に現代日本語書き言葉均衡コーパスの構築を開始した。ここ数年に出版された書籍や雑誌、新聞のデータ(3500万語)に加え、特に広く流通したとみられるデータとして、東京都の13自治体以上の図書館に収蔵されている書籍データ(3000万語)、さらにインターネット上の文書や白書、国会会議録などの特定目的のデータ(3500万語)を収集。2011年に、1億語を超えるコーパスとして完成する予定だ。

 Webページで公開されたのは、そのうちの1000万語。任意の日本語を入力してマッチする書き言葉データを検索でき、少し検索してみるだけでも日本語の傾向が見えてくる。例えば「見れる」での検索結果はすべてYahoo!知恵袋のデータであるのに対し、「喫緊の」の検索結果はすべてが白書のデータ。同じ書き言葉でも文書によって使われている表現に差があることが分かる。また「風景」と「光景」のように似た言葉でも、実際の使われ方には特徴があることも見て取れる。「風景」は「授業風景」や「食事風景」のように他の名詞と結びついた複合語として使われている例が246種類もあるが、「光景」はたった3種類。それも「日常的光景」「神話的光景」など「的」を伴っていることから、複合語にはなりにくい言葉であることがはっきりと分かる。こうした情報は辞書には記載されていないが、日本語を勉強している人にとってみれば重要なことだ。また日本語を母国語にしている人にとっても、自分の日本語表現が正しいかどうかを確認するなどの用途に使える。

 コーパス構築作業の進捗に応じて、Webページのデータも随時拡充させる予定。毎年1000万件程度ずつ増やしていき、2011年にはすべてを公開する。この際には、検索機能を高度化したり、出力可能なデータ件数を無制限にした有償版(1年当たり3000円程度)の用意や、研究機関にデータ全体をDVDで配布する(20万円程度)ことも予定している。

最大の壁は著作権

 ただ、コーパス構築作業は順風満帆ではないという。最大の壁が、著作権問題だ。

 コーパスを誰もが利用できるものとして公開するには、すべての用例において著作権処理を施さなくてはならない。その総数はおよそ3万件と、膨大な数にのぼる。さらに個人情報保護法の施行以降、許諾を得るために著作権者に連絡を取ることが非常に困難になっているという。やっとのことで連絡が取れても、怪しい話ではないかと疑われることも少なくない。著作権保護、個人情報保護の重要性は増しているが、その半面、共有資産としての言語データ構築作業は困難になる一方なのだ。

 今回のデータの試験公開には、こうした状況を改善させたいという意図も含まれているという。構築済みのデータを公開したWebページが存在すれば、実際にデータがどのように使われるのかを著作権者がイメージできる。このため、理解が得やすくなると考えられるわけだ。

 ただインターネット上の文章の場合は、そもそも著作権者を特定しにくいというさらに難しい問題を抱える。今回、コーパスとして用いられたYahoo!知恵袋のデータは、不特定多数のユーザーによって書き込まれたデータでありながら、著作権問題がクリアされている希有な例だ。Yahoo!知恵袋は公開当初から、研究目的での利用の可能性を想定していた。利用ガイドラインにこのことを明記し、ユーザー登録時に同意を求める。さらにサービスのトップページにも常時注意書きを表示し、ユーザーの認知度を向上させる工夫をしているという。

 インターネット上にはこれ以外にも、メールやブログなど大量の貴重な言語データが存在する。さらに現代の日本語を考えるうえでは、携帯電話のメールも見逃せない。ただ著作権問題をいかにクリアするか、その具体的な方策は現時点では見えていない。