必聴講座ご紹介

ビッグデータ EXPO 2012春
ビッグデータ時代に備えて〜今検討すべき情報分析基盤の全貌とは

日本マイクロソフト


ビッグデータ EXPO 2012春
ICTを活用した、情報爆発時代の新たな価値創出

NEC


Cloud Days Osaka 2012
会社を強くするためのクラウド×ソーシャル活用術

セールスフォース・ドットコム

業界動向

ニュース

日経パソコン

【CEATEC】カラオケ字幕を自動生成、松下子会社が新技術

2007/10/03
八木 玲子=日経パソコン
音声データに合わせて、内容を示す文字の色が順次変わっていく
音声データに合わせて、内容を示す文字の色が順次変わっていく
[画像のクリックで拡大表示]
携帯電話でもデータの視聴が可能
携帯電話でもデータの視聴が可能
[画像のクリックで拡大表示]

 音声データの再生に合わせて、その内容が順次表示されていく――。松下電器産業のベンチャー子会社であるBrothers&Co.が開発した「ボイス&スクリプト・シンクロナイザー」は、カラオケの字幕などでおなじみの機能を実現する技術だ。千葉市幕張メッセで開催中の「CEATEC JAPAN 2007」で展示している。

 この技術の特徴は、音声データと、その内容を記載した文字情報を入力すれば、両者を自動的に結び付けて、音声データに合わせて文字データを連動表示できること。まず音声データから人の声だけを抽出。例えば音楽ならば楽器演奏音、英会話なら背景の雑音などを取り除く。そして「文字情報を音声に変換して元の音声データと比較し、一致する個所を特定する」(同社ブースの説明員)。カラオケの字幕などはこれまですべて人手で作成していたが、この技術を用いることでこうした作業がほぼ自動化できる。

 ユーザーが聞きたい個所の文字情報を選べば、その時点から音声を再生することも可能。単語ごとに、開始時刻と終了時刻の情報を持たせているためだ。例えば英会話で聞き取りにくい個所を繰り返し聞く、といったことが簡単にできるようになる。

 実用化が期待できるのは語学学習の分野で、2007年中に語学学習サイトへの導入を目指している。「語学学校は、音声データと文字データをユーザーに配布するだけでよい。ユーザーのパソコンでこのソフトを使い、2つを連動できる」(説明員)。パソコンで作成した連動表示用のデータを携帯電話に移して視聴するためのソフトも開発しており、外出時の語学学習も可能になるという。ただ現時点では、パソコン上でのデータの作成に、音声の録音時間とほぼ同じ程度の時間がかかる。この点は、今後高速化したいとしている。

この記事に対するfacebookコメント

nikkeibpITpro

読みましたか? 〜 未読記事をご紹介