米Googleの製品マネージャーMichael Galvez氏は、同社公式ブログへの投稿で米国時間2010年7月14日、これまで取り組んできたオンライン百科事典「Wikipedia」の翻訳活動で、1600万語以上の英文記事を使用者の比較的少ない言語に翻訳できたと発表した。

 Googleは、Wikipediaに蓄積された情報を少数派の言語でも伝えることが重要と考え、2008年からボランティアの協力を得て翻訳を行ってきた。インドと中東、アフリカの協力者などと共同で作業し、英文1600万語以上を次の言語に翻訳した。アラビア語(使用地域は中東から北アフリカ)、グジャラート語(インドのグジャラート州周辺)、ヒンディー語(インド全域)、カンナダ語(インドのカルナタカ州周辺)、スワヒリ語(アフリカ東部から中部)、タミル語(インド南部からスリランカ北部)、テルグ語(インド南東部)。

 この活動を始めたころ、Wikipediaの英文記事は250万本(13億語)あったのに対し、ヒンディー語の記事は2万1000本(340万語)にすぎなかった。Googleは「Google Trends」で読者の多い記事を探し、翻訳支援ツール「Translator Toolkit」による機械翻訳と手作業を併用した。その結果、最初の3カ月で英文記事100本(60万語)以上をヒンディー語に翻訳できた。他の言語の記事も同様にして翻訳している。

 Googleによると、同様にTranslator Toolkitを使ってWikipediaの記事を自発的に翻訳するインターネットユーザーが多数おり、これまでに1億語以上がさまざまな言語に翻訳されたという。同社は、翻訳対象言語の記事数がまだ不十分なため、今後も作業を続ける必要があるとしている。

[Google公式ブログへの投稿記事]