日本IBMは,電話の話し声に応答する「音声認識システム」の“次世代版”の実用化に向けた実験を進めている。最大の特徴は,電話による話し言葉の全文を,そっくりそのまま文字データとして書き起こすこと。「話し言葉を丸ごと書き起こすことができれば,より複雑な問い合わせや会話のやり取りを音声認識システムが処理できるようになる」(日本IBM 東京基礎研究所の山崎一孝主任研究員)。

 電話音声の認識には,パソコンに直結したマイクの音声を文字データに変換するソフトウエア「ViaVoice」の技術を応用。さらに,話し言葉の中の単語一つひとつに対して,その後に続く言葉を統計的に絞り込む辞書を用意して認識率を高める。

 例えば,話し手が「羽田空港」と話した場合,システムは「はねだ」を認識した時点で,「次に『くうこう』が続く確率はx%,『から』が続く確率はy%」という具合に辞書から絞り込む。もし仮に,システムが「はねだ」の後の言葉を,「きゅうこう」か「くうこう」のどちらかだが一方には断定できないような場合に,「『はねだ』という言葉に続くのは,『きゅうこう』でなく『くうこう』だ」と統計的に判断する。

 これに対して,日本IBM自身やオムロンなどのベンダー各社がすでに提供している電話用音声認識システムは,電話の音声を丸ごと文字データに変換するのではなく,あらかじめ用意したキーワードだけを探し出す方式を採用している。電話による音声は音質が悪く,音声をそのまま文字データに変換するのが困難だからだ。この方法は,株価の問い合わせや航空券の予約のように,話す言葉が限られる場合に有効だ。ただし,話し手のセリフをあらかじめ想定した上で,語順や文法などを「ルール」として事前に盛り込む必要はある。

 電話の話し声を丸ごと文字データに書き起こすには,電話の音声の品質の低さという大きな壁がある。日本IBMの山崎主任研究員も,「実験では,特定の話者の声を変換できるようになっているものの,不特定話者の声を認識できるのは難しい。不特定話者での実験を重ねるとともに,後に続く言葉の確率モデルなどをより成熟させて実用化を目指しているが,実用レベルに達するのはまだ先の話」と話す。

 日本IBMの東京基礎研究所では現在,この次世代版の技術を使って,電車の出発駅と到着駅,出発時刻の話し声を基に到着駅までの乗車ルートと時刻を案内するシステムを試験的に稼働させている。今後は,「このシステムを日本IBMの社員2万人に公開して,システムの完成度を高めていきたい」(山崎主任研究員)。

(大和田 尚孝=日経コンピュータ)