日立製作所は2008年10月6日、大規模な録音データから任意のキーワードを含む音声を高速に検索する技術を開発したと発表した。合計で2000時間の音声・動画ファイルで任意のキーワードを検索すると、3秒で検索結果を表示できる。「従来は結果の表示までに十数秒~数十秒かかっていた。アルゴリズムの最適化などで大幅に短縮できた」(日立製作所中央研究所の神田直之氏)という。

 検索結果を選択すると、キーワードが登場する数秒前から音声・動画を再生する。「コールセンターで蓄積している顧客対応の音声データの活用などに応用できる」(神田氏)。そのほか、企業内の情報共有、消費者向けのWebコンテンツ、教育コンテンツなどへの活用も想定しているという。実用化の時期は「数年後をメドとしている」(神田氏)。日立グループのシステムに組み込む形で商品化する計画だ。

 今回発表した音声検索技術は(1)音素記号インデックスを利用した高速検索、(2)多段階リスコアリングによる高精度照合、という二つの新たな要素技術を採用。音声検索を高速かつ高精度にする工夫をしている。

 (1)は音声ファイルからキーワードを検索するアルゴリズムの改善である。音声からキーワード検索する場合、一語一語を母音と子音に分解した「音素」の単位に分解して検索する。例えば「日立製作所」という音声は「h/i/t/a/ch/i/s/e/i/s/a/k/u/sh/o」という音素に分解できる。この音素の並び順をインデックスにして、キーワードを検索する。

 日立中央研は音素三つを組み合わせた「音素連鎖」をインデックス化することで、検索速度を向上させた。例えば「日立製作所」という言葉は「hit」「ita」「tach」「achi」――というように、音素を一つずつずらした三つの音素の組み合わせをインデックス化する。こうした音素連鎖の並び順を検索するアルゴリズムにすることで、高速な検索を可能にした。

 (2)は検索結果を高精度にする日立中央研の独自技術である。音声を検索する際、まずは前述の音素記号インデックス技術を使って検索する。ただし、この段階では誤検出も多く含む。そこで検索結果の上位について、音響情報を利用したパターンマッチングを実施。異なるアルゴリズムによる音声検索を多段階に行うことで、検索結果の精度を上げる。

 今後の課題について神田氏は「今回の技術は講演のような明瞭な音声を対象にした。技術開発を進め、不明瞭な音声も高精度に検索できるようにする」とした。