「そびえる」という動詞がある。この語は常に「そびえている」という形で、状態を表すのに使う──かの金田一春彦氏は、後の日本語学に多大な影響を与えた有名な論文でこう書いた。

 だが、これは正しくない。前川氏が構築中の「現代日本語書き言葉均衡コーパス」を調べれば、“山がそびえる”のような用例がすぐ見つかる。「あれほどの天才でも、すべての日本語を知っているわけではない。人知には限界がある」。だからこそコーパスが必要なのだ、と前川氏は言う。

 コーパスとは、大規模な言語データベースのこと。前川氏は2006年から、過去30年間の日本語を対象にした1億語規模のコーパスの構築に取り組む。現在8000万語ほどを収集済みで、2011年に完成予定だ。「言葉は常に変化するもので、全体像が把握されたことは過去にない。ITやストレージの発展で、初めて可能になってきた」。インターネットの普及により、日記など私的な書き言葉が表に出るようにもなった。

 言語の全体像をつかむには、コーパスがその言語の「正しい縮図」である必要がある。そこで、統計調査の手法で膨大な著作物から文章をランダムに抽出する。著作権者に1件ずつ連絡し、許可を取る作業も必要だ。その数、およそ3万件。「これほどの手間をかけてコーパスを作っている例は、世界中にない」と胸を張る。

 今後の日本語について、前川氏は“規範性”が重要になるとみる。例えば何を「単語」とするか、今は厳密な規定がない。単語の単位が異なると文章の区切りが変わるため、情報検索の精度が落ちる。検索が社会インフラの一部を担う現代では重大な問題だ。「従来は専門家による物好きな議論だと片付けられたが、これからは経済的な利益があるものとして規範が論じられるのでは」。ITの発展は、日本語に新たな課題を突き付けている。



■変更履歴
上から4つめの図の説明文で、コーパス作成に従事するスタッフの人数を、より正確な記述に改めました。[2010/2/16 12:30]