GoogleのAI部門、人間に近い合成音声「WaveNet」を開発

ニューズフロント

2016.09.12

　米Google傘下のAI（人工知能）研究部門である英DeepMindは現地時間2016年9月9日、人間に近い合成音声システム「WaveNet」を開発したと発表した。既存の優れたテキスト読み上げシステムより自然で、「本物の人間とのギャップを50％以上縮めた」としている。

　WaveNetは、多層構造のニューラルネットワーク（DNN：ディープニューラルネットワーク）を用いて、実際の人間の声をサンプリングし、合成音声を生成する。

　音声品質の評価法「Mean Opinion Scores（MOS）」を用いて英語と中国語（北京語）でテストしたところ、英語は人間の音声がMOS値4.55であるのに対し、Googleのテキスト読み上げ機能は3.86、WaveNetは4.21を獲得した。北京語は人間の音声が4.21で、Googleのテキスト読み上げ機能は3.79、WaveNetは4.08だった。

　既存のテキスト読み上げ機能の多くは、音声の断片を記録した膨大なデータベースを用いる方法を採用している。同一人物の音声の断片をつなぎ合わせるため、違う人の音声に変えたり、感情を表現したりするには、新たにデータベースを構築する必要がある。

　音声を生成するのに必要なすべての情報をパラメータ化して保存する方法もあるが、この場合、これまでのところ少なくとも英語のような言語では、自然さに欠けた機械的な音声になる傾向がある。

　これらの方法に対してWaveNetは、音声信号のRAW波形を直接モデリングする。男性の声、女性の声、雰囲気の異なる声を生成でき、音にならない息継ぎや口の動きも学習するという。

　DeepMindは、Googleが2014年に約4億ポンドで買収した（米Bloomberg）。囲碁人工知能「AlphaGo」を開発したことでも知られる（関連記事：囲碁人工知能「AlphaGo」、プロ棋士との5番勝負を制す）。

[発表資料へ]

この記事の目次へ戻る

あなたにお薦め

今日のピックアップ

注目記事

おすすめのセミナー

セミナー一覧

注目のイベント

おすすめの書籍

日経BOOKプラスの新着記事

日経クロステック Special

What's New

【生成AI事例】デジタルで現場をDX化

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ