「雑音下でも認識できます」，組み込み機器向け音声認識技術が本格上陸

中道理

2005.04.27

　車の運転時にカーナビゲーション・システムのボタンを押したい，料理中にテレビの音量を上げたいなど，手が離せない状況で機器を操作したい場面は少なくない。そういったシーンに有望なのが音声認識システムである。ところが，多くの音声認識システムはマイクの性能や周囲の雑音などに影響を受けやすく使いづらい。カーナビゲーション・システムであれば，車のエンジン音，再生中の音楽，街頭からの騒音など様々な音が混ざるため，うまく認識できない。ところが組み込み機器向け音声認識システムを開発・販売する米Fonix社は，雑音下でも認識できる音声認識エンジンを提供している。同社は2005年1月より日本での販売を本格化している。アジアセールスのディレクタのJohn Shepherd氏（写真）に話を聞いた。（聞き手＝中道理）

――なぜ雑音下でも認識できるのか。

　ニューラルネットを使っていることが大きい。ニューラルネットは脳の神経細胞を模擬したアルゴリズムでパターン認識に強い。他社の音声認識エンジンはHMM（Hidden Markov Model）と呼ばれる確率に基づいた手法を使っている。いずれの手法でも，開発段階で音の波形を学習させる必要があるが，ニューラルネットでは学習の際に，各種雑音を混ぜたものが使える。我々の製品では，雑音がない環境だけでなく，街頭や車の中，オフィスでの雑音を加味した状態の学習を実施している。SN比が0，つまり，雑音と音声が同じ大きさの時で90％，SN比が-6のときでも80％の正答率だ。ところが，HMMでは雑音を混ぜて学習させると途端に認識率が落ちてしまう。そこで，ノイズ・キャンセル回路が必要になるが，この回路によって実際の音も変化してしまう。ニューラルネットではこういった回路を必要としない。

――雑音に強いほかににどんな特徴があるのか。

　音素ごとに認識が可能だ。このため，未知の単語にも対応できる。例えば，「select」という単語が登録されていないとしよう。我々の製品では，文字でselectと打てば，その発音記号が自動的に生成され単語と結び付けられる。登録後ユーザーがselectと発音すればselectの文字列が選ばれる。HMMではこういった処理は困難だ。selectという文字と一緒に音声データを登録しなければならない。

――他社でニューラルネットを使っているところはないのか。

　HMMとニューラルネットのハイブリッドを開発している会社はあるようだ。ただ，ニューラルネットだけで作っているのは我々だけのはずだ。

――大学の研究室などでニューラルネットを使った音声認識を研究している。FONIX以外にもニューラルネットの音声認識エンジンがないのが不思議だ。

　ニューラルネットを商用レベルに持っていくためには，膨大なサンプルを取り，チューニングする必要がある。この技術を完成するまでに190億円と7年間の歳月を必要とした。一朝一夕でできるものではない。

――今どのような製品に実装されているのか。

　2年前に米Microsoft社が配布しているXboxの開発キットに組み込まれて提供されたほか，スマートフォンに搭載された。また，その後ソニーのPlayStation 2の開発キットにも採用された。今年後半には日本の携帯電話に組み込まれるだろう。また，米国では固定の電話機や電子辞書に組み込む動きがある。ビデオ録画やロボットなども有望な分野だ。

――カーナビゲーション・システムはどうか。

　かつてHMMベースの音声認識を搭載したメーカーもあるが，音声認識はこりごりという雰囲気だ。また，車載装置は安全性や雑音環境試験など多くのテストが必要なため，開発に時間がかかる。一番最後に浸透する分野だと思う。