米Google傘下のAI(人工知能)研究部門である英DeepMindは現地時間2016年9月9日、人間に近い合成音声システム「WaveNet」を開発したと発表した。既存の優れたテキスト読み上げシステムより自然で、「本物の人間とのギャップを50%以上縮めた」としている。

 WaveNetは、多層構造のニューラルネットワーク(DNN:ディープニューラルネットワーク)を用いて、実際の人間の声をサンプリングし、合成音声を生成する。

 音声品質の評価法「Mean Opinion Scores(MOS)」を用いて英語と中国語(北京語)でテストしたところ、英語は人間の音声がMOS値4.55であるのに対し、Googleのテキスト読み上げ機能は3.86、WaveNetは4.21を獲得した。北京語は人間の音声が4.21で、Googleのテキスト読み上げ機能は3.79、WaveNetは4.08だった。

 既存のテキスト読み上げ機能の多くは、音声の断片を記録した膨大なデータベースを用いる方法を採用している。同一人物の音声の断片をつなぎ合わせるため、違う人の音声に変えたり、感情を表現したりするには、新たにデータベースを構築する必要がある。

 音声を生成するのに必要なすべての情報をパラメータ化して保存する方法もあるが、この場合、これまでのところ少なくとも英語のような言語では、自然さに欠けた機械的な音声になる傾向がある。

 これらの方法に対してWaveNetは、音声信号のRAW波形を直接モデリングする。男性の声、女性の声、雰囲気の異なる声を生成でき、音にならない息継ぎや口の動きも学習するという。

 DeepMindは、Googleが2014年に約4億ポンドで買収した(米Bloomberg)。囲碁人工知能「AlphaGo」を開発したことでも知られる(関連記事:囲碁人工知能「AlphaGo」、プロ棋士との5番勝負を制す)。

[発表資料へ]