音声認識技術を開発するカタログは、動画の音声を自動的にテキスト化し、キーワード検索を行えるサービス「もじもじTV」を発表した。10月14日から1000人限定でアルファ版(開発初期版)の利用者を募る。今冬の一般公開を予定する。動画コンテンツを保有する企業向けに、動画マッチング広告を用意する考え。
もじもじTVでは、デジタルカメラなどで撮影した音声付き動画を登録するか、動画共有サイト「YouTube」や「ニコニコ動画」に掲載された動画のURLを登録すると、音声認識エンジンが自動で文章に起こす。アルファ版ではナレーターが1人で話し、雑音が少ない動画ほど良好に音声認識が行えるという状態で、複数人が会話するものでは認識精度が落ちる。
カタログでは精度向上のため、テキスト化した内容をあとから利用者が修正できる仕組みを導入する。百科事典サイト「Wikipedia」のように、1つの文章に対して複数の利用者が手直しを行えるようにし、修正結果を音声認識エンジンに学習させる。また新語、俗語、人物名などをインターネット上から自動収集し、単語の認識精度を向上する。
今後はアルファ版利用者の意見を反映して機能を追加し、YouTubeやニコニコ動画以外のサイトにも対応する予定。また動画コンテンツを保有する企業向けに著作物のモニタリングサービスなども用意する考え。
■関連情報
・カタログのWebサイト http://catalog.to/