「Windows Vista」と「2007 Office system」の企業への提供が始まった。1995年以来11年ぶりの、OSとOfficeの同時リリースだ。だが両製品を試用してみると、一つ疑問に思うことがある。かな漢字変換の結果が異なるのだ。同時期にリリースされた2製品だが、実は搭載しているかな漢字変換技術は全く別のものだという。詳細を、マイクロソフト ディベロップメントでIMEの開発を率いる、オフィスサービス開発統括部 インプットメソッドテクノロジーの佐藤良治シニアマネージャに聞いた。
■Vistaと新OfficeのIMEは、何が違うのか。
VistaのIMEは、「Office 2003」の技術を踏襲している。Vistaへの対応など内部的な手直しはしたが、変換結果はOffice 2003とほぼ同じだ。
大きく変わったのは、新Officeが搭載する「IME 2007」。「Trigram/SLM」という新たな変換アルゴリズムを採用した。さらに、OutlookやSharePointなどほかのOffice製品との連携機能も追加した。例えばOutlookのアドレス帳に登録されている人名を参照したり、SharePointで登録されている社内の略語を入力できたりする。
これまでも、新しい技術はまずOffice用のIMEに搭載してきた。Officeのユーザーは、変換精度向上や他製品との連携などにより、生産性を高めることをより重視するからだ。
なお、VistaとOfficeのIMEに共通する変更点もある。例えば、従来の「ナチュラルインプット」と「スタンダード」という2つの入力方法を一本化したこと。双方の良い部分を合わせてシンプルにした方が、ユーザーにとってハッピーだろうと考えたからだ。
■IME 2007の新しいアルゴリズムについて詳しく説明して欲しい。
Trigram/SLMでは、3つの語(Trigram)のつながりやすさを考慮して変換結果を決める。また品詞だけでなく、表記を元にするのが特徴だ。専門的にいうと「Word Trigram」という手法になる。
従来用いていた手法は、「Class Bigram」。Classとは品詞のように語を分類するためのグループのことで、Bigramは2語を意味している。つまり、2つの語を対象に、語が属するグループ同士のつながりやすさを見て、結果を決めていた。
これに対してWord Trigramでは、3語を対象に、それぞれの表記(Word)を考慮して結果を決める。例えば「せいぼ/の/いのり」という3語から成る入力があったとする。従来の手法では、「せいぼ」が「聖母」なのか「歳暮」なのかを決めるには、どちらがよく使われる表記なのかといった情報を元に、人手で調整しておく必要があった。今回は3語のつながりを考慮するので、「いのり」に関連の深い「聖母」を選ぶことができる。
もちろんこれまでも、前後の係り受けから漢字を判断するという処理はあった。だが係り受け情報は使いどころが難しく、良い結果を生む場合もあるが逆に悪影響を及ぼすこともあった。
また今回の変更によって、口語表現もきれいに変換できるようになった。従来は助詞などの付属語に関する処理が弱かったが、今回は助詞抜きなどの表現でも変換できる。口語表現のための「話し言葉優先」というモードも用意しているが、正直言って、切り替えなくても精度はあまり変わらないのではないか。
■変換アルゴリズムの一新は、かな漢字変換処理の根幹にかかわる大変化。なぜ、これほどの変更に踏み切ったのか。
変換精度の向上が鈍ってきたからだ。従来の方法での精度向上は飽和しつつある。もっとほかにできることがあるのではと考え、変えようという決断に至った。
従来は、品詞と品詞の接続のしやすさを記述した「品詞接続表」を利用して変換結果を決定していた。大ざっぱな表は統計的に作れるが、最後は職人技とも言える手作業での調整作業に頼るほかない。このため保守が大変で、もっと科学的で機械的な手法を求めていた。
こうした背景にマッチしていたのがTrigram/SLMだった。元々は音声認識分野で使われてきた技術だ。我々は米国や中国のマイクロソフト・リサーチ(マイクロソフトの研究開発部門)とも議論したが、彼らも同じ技術に着目していた。2001年から一緒にプロジェクトを進め、1年で、これでいけるというめどが立った。
IME 2007は、IMEの歴史の中でも画期的な製品だ。マイクロソフトは95年にIMEの最初のバージョンを世に出しているが、それ以降で最も大きな刷新と言える。使っていただければ、従来との違いは体感できるはずだ。
■新しいWord Trigramでは、辞書データ量や計算量などが増えないか。
確かに増える。だが圧縮の手法を使うことで効率化している。
また計算量に関しては、パソコンのハードウエアが進化したからこのような手法が採用できるようになったという面もある。処理自体が複雑なので昔に比べれば確かに時間はかかるが、今時のパソコンなら大丈夫だ。