NTTテクノクロスの「FutureVoice Crayon」は、テキストデータを合成音声で読み上げてくれる、音声合成ソフトである。特徴は、音声の合成方法としてディープラーニング(深層学習)を活用したこと。これにより、少量の音声データから人の声と遜色のない自然な音声を作成できる、という。

ディープラーニング(深層学習)を活用した音声合成のイメージ
ディープラーニング(深層学習)を活用した音声合成のイメージ
(出所:NTTテクノクロス)
[画像のクリックで拡大表示]

 イントネーションや声質の材料となる音声データベースを利用し、読み方やアクセントを他の話者の音声データによって補う。このやり方で、少量の音声データから、その話者の音声を、より自然に聞こえるように合成する。これまで音声合成では難しかった、ナレーションやガイダンスといった用途にも使えるという。

 日本語は53話者、外国語は10言語22話者を用意している。いずれもディープラーニングによって作成した話者である。好きな話者を選んで利用できる。要望があれば、学習用の音声データを用いた話者の作成や、ユーザーのイメージに合わせた話者の作成にも応じるという。

 開発の背景には、コンタクトセンターにおける自動音声案内や、音声対話サービスやロボットを使った受付案内など、音声合成技術を活用するシーンが広がっている状況がある。だが従来の技術では、人の声に近付けたり、声のバリエーションを増やそうとすると、費用の負担が大きくなってしまう問題があったという。

FutureVoice Crayonの概要
用途と機能テキストデータを合成音声で読み上げてくれる音声合成ソフト
特徴音声の合成方法としてディープラーニング(深層学習)を活用したこと。少量の音声データから人の声と遜色のない自然な音声を作成できるという
適用領域コンタクトセンターにおける自動音声案内や、音声対話サービスやロボットを使った受付案内など。ナレーションやガイダンスのように自然な音声を要求する用途にも使えるという
話者の種類日本語は53話者、外国語は10言語22話者を用意した。いずれもディープラーニングによって作成した。要望により、学習用の音声データを用いた話者の作成や、ユーザーのイメージに合わせた話者の作成にも応じる
価格(税別)要問い合わせ
発表日2017年12月5日
提供開始日2017年12月5日