特集「言葉を理解するコンピュータ」（2）

自然言語処理の静かな再来

2005.09.28

一時停滞した機械翻訳研究

米国で機械翻訳の研究が非常に盛んだった1960年前後は，キューバのミサイル基地を巡って米国とソ連の間で最も緊張が高まった時期でもあった。実際，米国では安全保障上の目的などから，大量の外国語文書や通信内容を自動的に英語に翻訳するニーズが高まった。その結果，1950年代後半から60年代前半にかけて，多くの機関で機械翻訳の研究が進んだ。

　背景にはN. Chomskyが1957年に明らかにした考え方がある。すなわち先ほど説明したような木構造に対し，構造を組みかえる（変形する）ことによって文章が作り出されるというものである。結果として，構文解析の研究が進んだが，これは逆に，同じ文章に対して非常に多くの構文的解釈があり得る，という事実を明らかにすることにもなった。実際に構文解析してみると，構文木は一意に決まらないというわけである。

　そのような例としてよく引き合いに出されるのは「Time flies like an arrow」という文章である。fliesが動詞（fly）であればlikeは形容詞になる。しかしlikeは動詞でもあるので，その場合の主語はtime flies（時蝿）という耳慣れないものになってしまう。どちらが正しいかを判定するにはこれらの単語に関する知識が必要である。

　しかし事態はさらに複雑であった。というのも，上の例ならまだ判定することができるが，これまた有名な「He saw a woman in the garden with a telescope」という文章になると，gardenにいるのはHeかwomanか，またtelescopeを持っているのがHeかwomanかは定かではない。判定するには前後関係など何らかの知識が必要になる。

　このような解釈のあいまいさは，文章が複雑になるにつれて一気に大きくなっていく。その結果，判定のための条件の数もまた膨大にならざるを得ない。しかし，有効な解決手段は簡単には見つからなかった。そして実際には，意味の解析に力を入れるより，構文のレベルで目標とする言語に変換することが現実的になっていく（これを構文トランスファなどと呼ぶ）。

　機械翻訳が抱えていたこのような課題が，現実の問題として噴出したのが有名な1966年のALPACレポートである。これはALPAC（Automatic Language Processing Advisory Committee）と名付けられた調査委員会の報告書で，おおむね次のような結論を出していた＊2。それは，まず当時の機械翻訳は科学として支援されるべき段階にあり，現実的な翻訳として今すぐ成果が得られるものではないこと，そして一方では翻訳の速度と品質を得るための研究に支援が必要，というものである。

　この委員会の聞き取り先には，かつてDARPAで人工知能（AI）研究者に予算を与えていたJ.C.R Lickliderも含まれている。Lickliderは，ALPACの調査が行われたときは米IBM社にいたが，機械翻訳の現状に対して否定的な態度を取ったことが記録されている。

　報告書の結論は現時点から振り返っても妥当な内容で，急速な実用化を期待せず，研究は長期的に支援すべきというものであったが，実際には，機械翻訳の研究は支援を打ち切られ，停滞を余儀なくされた。これには，宣伝ばかりでなかなかオモチャの水準を脱しない当時の人工知能研究に対する不信感が反映していたのかもしれない。

文法理論は発展したが知識記述が壁に

　1980年代から90年代前半にかけて，文法に関する研究は大きく進展した。文章を構文レベルで解析する技法が洗練され，ある程度は意味も扱える文法や，文の単位を超えて意味を処理する理論や談話の分析なども可能になった。日本でも80年代に実行された第五世代コンピュータ計画に関連して，自然言語処理も主要テーマの一つとなっていた。しかし第五世代プロジェクトの帰趨は別にしても，言葉の理解に至るほどの目覚ましい成果を自然言語処理研究が挙げることはなかった。

　文章を発話する場面や，前後の文脈など，周囲の状況を前提知識として持つことによって，あり得る解釈の中から適切なものを選べるようにすると言うのは簡単だが，そのような知識を完ぺきに記述することは事実上不可能だった。そこには1970年代から80年代にかけて人工知能の応用成功例として盛んに開発されたエキスパート・システムが，結局のところ知識の完全な記述が不可能なことから行き詰まったのと同様の理由が待っていたのである。

　別の問題もあった。適切な言語処理には関連する知識が必要だが，ある分野の知識を集めても，それは他の分野の処理には使えない。そのつど知識に関する「シジフォス的状況」が出現せざるを得ない＊1。

　結局，文法理論が進んでも，多少の意味が扱えるようになっても，それらが自然言語処理システムとして大きな成果を実らせることはなかったのである。どうやら既存の路線の延長線上には目覚しい成果を期待できないのではないか，という考えも出てきた。

日本の自然言語処理ことはじめ

　コンピュータを数値計算以外にも使うことは，わが国でも黎明期の頃から考えられていた。情報処理学会が設立された1960年，その設立総会で工業技術院電気試験所の和田弘・電子部長（当時）が行った記念講演からは，わが国におけるコンピュータ黎明期の自然言語処理の状況が伝わってくる＊A。

　「計算をしない計算機」と題する講演は，(1)文字を読む機械，(2)外国語の翻訳，(3)要約機，(4)検索機，の四つについて論じている。いずれも当時の電気試験所で研究していた内容である。

　まず，(1)の文字を読む機械は，要するに文字認識である。英文タイプライタの文字と記号73種を対象に，どれくらいの解像度でスキャンすればいいかということや，太さやフォントが違っても同じ文字と認識できるために，各文字の性質を抽出する機械学習の必要性に触れている。

　(2)はもちろん，機械翻訳システムを指す。同じ単語でも違う品詞・意味になる場合があること，語順が言語によって異なる点に注意を促した後，当面は意味には踏み込まず，構文的な研究に取り組むことを述べている。そして現状の翻訳例として，「I have some eggs in my hand」を，「ワレガイクラカノタマゴヲワレノテノナカニモツ」と翻訳する処理を具体的に解説している。この翻訳文は，タイプライタにカナ出力されていた。もちろん，当時は漢字を含む日本語処理機能は実現されていない。

　このシステムの内部では日本語の1語を64ビットで表現しているが，そのビット列を詳細に示すあたりに時代がしのばれる。

　(3)は論文などの要約を目指すものである。具体例として，ネコの首に鈴を付けようとネズミが相談する話を紹介している。よく使われている注目単語を洗い出し，それを中心に文を選ぶという単純な方式である。その結果，三つの文章，The cat killed some of the mice. Put a bell on the cat. But who is going to put the bell on the cat?が印字された。

　これらの文にはcat，mouse，bellという三つのキーワードが二つ以上入っていたから，と説明しているが，なるほど要約になっていると思えるところが面白い。当時，1000語程度の文章なら17分ほどで要約できたという。課題として，構文解析から機械学習にまで進む必要性を指摘している。

　(4)については，講演が行われた時点では具体的なシステムの説明はしていない。この問題の重要性を強調し，何とか合理的な情報の整理法を生み出したいとしている。これはインターネット時代の今，非常に切実な課題となっているが，すでに45年前から問題だったのである。

　以上を眺めたとき，現在のコンピュータは当時に比べてどれだけ進歩したのだろうかと感慨を禁じ得ない。あえて比較すれば，遺跡から分かった古代ポンペイの都市機能と，現代都市のそれとの違いは何かということかもしれない。