米グーグルが相次ぎ公開した、人工知能に関する二つの研究(図1、図2)。それが示すのは、人間が視覚で物体を認識する能力と、コトバを操る能力が、地続きの関係にあるということだ。この二つの研究について解説しながら、自然言語処理にニューラルネットワークを応用する研究の最新動向を紹介する。

図1●英語の文章をフランス語に機械翻訳するニューラルネットワーク。英文「A B C」(A~Cは英単語)をA、B、Cの順にニューラルネットワーク(長方形)に入力すると、その英文に対応したフランス文の「W X Y Z」がW、X、Y、Zの順に出力される(詳細は後述)
図1●英語の文章をフランス語に機械翻訳するニューラルネットワーク。英文「A B C」(A~Cは英単語)をA、B、Cの順にニューラルネットワーク(長方形)に入力すると、その英文に対応したフランス文の「W X Y Z」がW、X、Y、Zの順に出力される(詳細は後述)
[画像のクリックで拡大表示]
図2●画像データを入力すると、状況を説明するキャプションを自動生成するニューラルネットワーク(詳細は後述)
図2●画像データを入力すると、状況を説明するキャプションを自動生成するニューラルネットワーク(詳細は後述)
[画像のクリックで拡大表示]

ニューラルネットだけを使った機械翻訳の衝撃

 脳神経細胞の活動を模したニューラルネットワーク“だけ”を使い、英語の文章をフランス語に翻訳する――自然言語処理に詳しいプリファードインフラストラクチャー 知的情報処理事業部 副事業部長の海野裕也氏は、2014年9月に公開されたグーグルの研究成果(図1、論文へのリンク)に驚愕したという。

 ニューラルネットは元々、画像データから物体を認識するといった、データの抽象化が得意だと考えられていた。「文章の翻訳のような、入力と出力で情報量が完全に保存される処理にも使えるとは驚きだ」(海野氏)。

 グーグルが見せた研究成果「英仏翻訳ニューラルネット」の意味について理解を深めるため、これまでの機械翻訳の歴史を簡単に振り返ってみよう。