スピーカーから騒音を出した環境下で、音声認識ソフトウエアが正しく動作することを実演した
スピーカーから騒音を出した環境下で、音声認識ソフトウエアが正しく動作することを実演した
[画像のクリックで拡大表示]

 NTTは2014年9月24日、100デシベル程度の大騒音下でも人の肉声だけを高感度で集音できる音響処理技術を開発したと発表した。工事現場や工場内、電車通過中のガード下などの環境でも携帯電話で通話したり、IT機器に音声を認識させたりできるようになる。

 子会社を通じて技術を外部企業に販売し、IT機器やソフトウエアなど年間100万台への搭載を目指す。自動車用製品などのほかスマートフォンへの応用も見込んでいるという。

 NTTのサービスイノベーション総合研究所が開発した。2本~3本の指向性マイクを使い、騒音環境を高度に解析できる点から「インテリジェントマイク」と呼んでいる。様々な騒音が重なっている状態から、聞き取りたい音(肉声)がある方向を解析してマイクの感度を高めるビームフォーミング技術と、マイクから集めた音から肉声を取り出すのに適した周波数フィルターを動的に作る技術を組み合わせた。

 具体的には、聞き取りたい音がある方向と工事音の方向が違うなど目的音と雑音の空間分布が異なる場合は、これを利用して目的音と雑音の周波数特性と空間分布を推定する。例えば3本の指向性マイクを使った場合、あるマイクが主に聞き取りたい肉声を拾い、他の2本がそれぞれ別の方向にある騒音を拾って、その結果からそれぞれの特徴を解析する。

 自動車の走行音のように持続する音か、衝突音のように瞬間的に大きくなる音かといった時間変動特性も解析している。これらの解析結果から騒音を効率的に除去できるフィルターを生成して、目的音を集音したマイクの音声信号から目的音の感度を高める処理をかける。

 会見では、工場で実際に採取した100~110デシベルの騒音環境をスピーカーで再現して、今回の音響処理を実装したマイクを通じて人がしゃべった内容を、音声認識ソフトウエアが問題なく認識できる様子を実演した(写真)。音響処理された音をヘッドホンで聞くと、周囲の騒音レベルがかなり下がっていることが分かる。

 必要なソフトウエア処理量は「安価なDSP(デジタル信号プロセッサー)に実装できる水準で、幅広い機器に搭載できる」(開発を担当した丹羽健太氏)。指向性マイクも1個100円以下のもので十分で、スマートフォンなどにも容易に実装できるという。

 技術の販売はNTT子会社のNTTアドバンステクノロジ(NTT-AT)が担当。技術を実装したソフトウエア群「インテリジェントマイクライブラリ」(仮称)を2014年10月から機器メーカーなどに提供する。年間100万ライセンス(搭載機器の台数)を目指す。1台当たりのライセンス費は数量などにもよるが、量産機器の場合で「1台約100円」(販売を担当するNTT-AT情報機器テクノロジセンタ長の齋藤雅明氏)がメドという。まずはハンズフリー通話や音声認識型のカーナビゲーション装置など、自動車用機器向けの需要を見込んでいる。