米Googleは2010年5月10日、同社が開発中のかな漢字変換ソフト(IME)「Google 日本語入力」のソースコードを公開した。オープンソース・プロジェクト名はMozc(もずく)。ライセンスはBSD。ただし公開したのはIME本体と辞書データの一部で、Google 日本語入力の強みであるWeb上のデータから自動生成した辞書データは含まれない。

 Google 日本語入力のベータ版および開発版と、オープンソース版の違いは、対応OSと辞書データである。

 対応OSについては当面、GoogleがLinuxベースで開発中の「Chrome OS」のオープンソース版である「Chromium OS」での実装を主な目的とする。Windows版、Mac OS X版、Linux版は、Chromium OSに次ぐ優先度となる。Linuxディストリビューションでの動作については、Chromium OSのベースとなっているUbuntuのバージョン9.10/10.04でのビルドを確認済みという。

 辞書データについては、GoogleがWebサイトで収集した日本語の文章から自動生成したデータを省略。またカタカナから英語へのシソーラス、郵便番号辞書も除いている。

 Webの情報を基に自動生成した辞書データは新語対応や予測変換などGoogle 日本語入力の差異化ポイントの多くを占める要素である(関連記事)。同データを非公開とした理由についてGoogleは、「Googleが収集した膨大な単語に加えて、Googleにおける検索のランキング・インデキシング・アルゴリズムを反映した単語の出現頻度情報をIME以外の目的で使われるのは意図するところではないため」と説明している。

 今回公開したオープンソース版は、オープンソースのIMEが使用する辞書として一般的なIPAdicをベースに、表外動詞や形容詞、頻出カタカナ語などを加えたカスタム辞書を含んでいる。

公開を伝えるブログ記事