ITの力で“言葉の壁”を取り払おうとする取り組みが、にわかに活発化している。背景にあるのは、急増する訪日外国人である。日本政府観光局(JNTO)によれば、ビザの免除や発給要件の緩和、消費税免税の対象品目拡大などが追い風になり、2014年は前年比29.4%増の1341万4000人に達した。

 この流れは、東京オリンピック・パラリンピックが開催される2020年に向けてさらに進みそうだ。政府は、2020年に訪日外国人旅行者を2000万人に引き上げる目標を掲げている。

 これに合わせて加速しているのが、機械翻訳技術の開発である。総務省主導の開発プロジェクトが進んでいるほか、民間企業による新規参入の動きもある。

NICTを中心にオールジャパン態勢で開発

 総務省は2020年に向けて、「グローバルコミュニケーション計画」と呼ぶ多言語音声翻訳システムの開発プロジェクトを推進している。病院や商業施設、観光地などを対象に、スマートフォンやヘッドセットを用いた多言語でのコミュニケーションを可能にする。英語などの主要言語以外にも対応し、2020年には東京オリンピック・パラリンピックで活用する計画だ。

 研究開発を主導するのは、総務省所管の独立行政法人、情報通信研究機構(NICT)。NICTのユニバーサルコミュニケーション研究所 隅田英一郎副所長によれば、機械翻訳は近年、急速に進化を遂げているという。それを可能にしているのが、統計翻訳と呼ばれる手法である。

 統計翻訳では、ビッグデータをコンピュータで解析し、ある語とその対訳との関係性を統計的に導き出す(関連記事:“言葉の壁がない世界”が現実に? 新手法で進化する機械翻訳)。例えば日本語と英語の翻訳なら、日本語の文章とその英語訳がセットになったデータ(「対訳コーパス」などと呼ぶ)を解析。すると、ある日本語の表現が、どんな英語の表現に訳される確率が高いかが分かる(図1)。

図1●統計翻訳では、大規模な対訳データを基に、確率付きの対訳辞書を自動生成する
図1●統計翻訳では、大規模な対訳データを基に、確率付きの対訳辞書を自動生成する
[画像のクリックで拡大表示]

 この方法で高い精度を実現するには、大量の対訳コーパスを集める必要がある。コンピュータやインターネットの普及で言語に関するデータが大量に蓄積されるようになってきたことに加え、コンピュータの性能向上で大規模データの解析も容易になっている。こうしたことから、現在では用途を限ればかなりの高精度に達しているという。例えば旅行会話であれば「TOEICなら600点レベルの翻訳能力を持つ」(隅田氏)ところまで来ている。