注目の書籍

好評発売中!

IT業界徹底研究就職ガイド2013年版

IT/ネット業界で働くと いうことを分かりやす く解説。2013年3月卒 業の学生向けの1冊。

必聴講座ご紹介

Cloud Days Tokyo 2012
クラウド時代を勝ち抜く企業戦略を考える

エムオーテックス


Cloud Days Tokyo 2012
クラウド時代の企業インフラとユーザー環境の姿

ヴイエムウェア


Cloud Days Osaka 2012
クラウドでIT維新を〜ビジネスを加速させるベストプラクティス

アマゾン データ サービス ジャパン

オープンソース/Linux

ニュース

ITpro

Google 日本語入力がオープンソース化、“クラウド辞書”は対象外に

2010/05/11
高橋 秀和=ITpro

 米Googleは2010年5月10日、同社が開発中のかな漢字変換ソフト(IME)「Google 日本語入力」のソースコードを公開した。オープンソース・プロジェクト名はMozc(もずく)。ライセンスはBSD。ただし公開したのはIME本体と辞書データの一部で、Google 日本語入力の強みであるWeb上のデータから自動生成した辞書データは含まれない。

 Google 日本語入力のベータ版および開発版と、オープンソース版の違いは、対応OSと辞書データである。

 対応OSについては当面、GoogleがLinuxベースで開発中の「Chrome OS」のオープンソース版である「Chromium OS」での実装を主な目的とする。Windows版、Mac OS X版、Linux版は、Chromium OSに次ぐ優先度となる。Linuxディストリビューションでの動作については、Chromium OSのベースとなっているUbuntuのバージョン9.10/10.04でのビルドを確認済みという。

 辞書データについては、GoogleがWebサイトで収集した日本語の文章から自動生成したデータを省略。またカタカナから英語へのシソーラス、郵便番号辞書も除いている。

 Webの情報を基に自動生成した辞書データは新語対応や予測変換などGoogle 日本語入力の差異化ポイントの多くを占める要素である(関連記事)。同データを非公開とした理由についてGoogleは、「Googleが収集した膨大な単語に加えて、Googleにおける検索のランキング・インデキシング・アルゴリズムを反映した単語の出現頻度情報をIME以外の目的で使われるのは意図するところではないため」と説明している。

 今回公開したオープンソース版は、オープンソースのIMEが使用する辞書として一般的なIPAdicをベースに、表外動詞や形容詞、頻出カタカナ語などを加えたカスタム辞書を含んでいる。

公開を伝えるブログ記事

この記事に対するfacebookコメント

nikkeibpITpro

読みましたか? 〜 未読記事をご紹介