日本人がコンピュータを利用する上で欠かせない日本語入力機能。グーグルが2009年12月に提供を開始した「Google日本語入力」は、後発ながら変換効率の高さで評判を集めた。開発を主導した小松弘幸氏は「日本語入力はライフワーク」と語り、ユーザーインタフェース(UI)の進化につなげると意気込む。

「Google日本語入力」を開発したきっかけは何ですか。

 学生時代に日本語予測入力システムを開発し、オープンソースソフトとして公開していました。グーグル入社後は開発から離れたものの、本業の傍らで新たな日本語入力システムの構想を温めていました。

 直接のきっかけは、同僚である工藤拓からの提案です。彼は検索エンジンで入力語句を予測したりスペルミスを修正したりする「もしかして」機能の担当でした。この機能を日本語入力に応用したいというアイデアに可能性を感じました。

 グーグルには、勤務時間の2割を本業以外に使える「20%ルール」があります。これを活用して開発を始めました。現在ではそれが本業となり、多くのメンバーと共に開発を続けています。

日本語入力に強い思い入れがあったのですね。

 私のライフワークです。グーグル以外で働いていても、きっと続けていたでしょうね。

小松氏と発足時のパートナーだった工藤拓氏(中央左)、現在の開発メンバー(写真:清水 盟貴)
[画像のクリックで拡大表示]

 この分野に興味を持ったのは、学生時代に読んだ予測入力に関する雑誌記事がきっかけでした。

 日本語入力は英語と比べると、「変換操作が必要」というハンディキャップを負っています。この作業を効率化するには、使用する言葉を先回りして予測する機能が有効です。入力の手間を軽減できれば、日本語入力を「必要だから使う」から「便利だから使う」に変えられる。私はこれをやりたいと考えました。記事に登場した増井俊之さん(現在は慶応義塾大学環境情報学部教授)とは、後に「ユーザーの行動を理解する予測入力システム」を共同研究する機会に恵まれました。

2割の完成度を高めるのに苦労

Google日本語入力は変換精度の高さが評価されました。

 「もしかして」は、単純な文字の間違いや日本語入力システムの誤変換を修正するといった、日本語特有の機能を実装しています。その成果はGoogle日本語入力の辞書にも生かしています。

 ただ、それだけでは高い変換精度を達成できません。システム開発ではよく、「8割の完成度は全体の時間の2割で達成できる。残り2割に時間の8割を費やす」と言われます。Google日本語入力でも同じ苦労をしました。

 Google日本語入力では、ネット上の膨大な文書の解析結果を基に辞書を作ります。俗語などを含め、誤った語句やふさわしくない語句も取り込む可能性があるわけです。ここが完成度を高めるハードルの一つでした。

ネット上の文書は漢字と仮名が混ざっています。「語句」をどのように認識するのですか。

 単漢字や基本熟語の音読み・訓読みのデータを、あらかじめ整備しておきます。このデータを使って、新たな漢字熟語や語句の読みを類推します。「山田」という語句なら、音訓のデータを使って「やま・た」「やま・だ」「さん・でん」「やま・でん」などの読みの候補を作成するわけです。

 次に、それらの候補のなかでどれが最も確からしいかを類推します。ネット上の膨大な文書には、同じ語句を平仮名や片仮名で記した文章が存在するはずです。仮名での語句の出現頻度などを基に、それぞれの読みの確からしさを調べていきます。

 ただ、この方法だけでは誤りを排除できません。初期のベータ版では「ことし」を「来年」と変換して、利用者からお叱りを受けました。「来年」の読みの候補である「らい・ねん」「らい・とし」「こ・ねん」「こ・とし」などのなかで、「こ・とし」の出現頻度が高かったために起こってしまったのです。加えて、日本武尊(やまとたけるのみこと)といった慣用的な読み方を持つ「難読語」にはこの方法が通用しません。