スマートスピーカーの仕組み

注目浴びるスマートスピーカー、知っておきたい可能性と制約

TIS

2017.12.07

有料会員限定

　チャットボットに続き、音声でシステムを操作する音声アシスタントに対する注目度が高まってきた。スマートスピーカーの相次ぐ登場は、その象徴といえる。

　チャットボットも音声アシスタントも、実は裏側で使われる技術の多くは共通する。テキストによるコミュニケーションと音声のコミュニケーションの違いを押さえれば、チャットボットと同様に考えられる部分が多い。

　音声アシスタントならではの要素技術は、音声認識（Speech-to-Text）と音声合成（Text-to-Speech）だ。音声認識は、対話システムへの入力がテキストではなくユーザーの声であるため、これをテキストに変換する処理に用いる。

　技術自体は以前から存在するが、最近になって改めて注目が集まってきた。背景には、ディープラーニングによる認識精度の飛躍的な向上がある。正確にテキストに変換しやすくなり、対話システムの実用度が高まった。

　もう1つの音声合成は、対話システムで生成した応答文の結果をユーザーにフィードバックする際に、テキストを音声として読み上げるもの。ただし、通常のテキスト情報では複数の読み方がある言葉を読み間違えたり、アクセントを間違えたりする場合がある。識別できるように、音声合成記述言語のSSML（Speech Synthesis Markup Language）を用いるシステムもある。

音声が新たな可能性を開く

　音声を活用してシステムを構築すると、チャットボットには無い可能性が開ける。一方、音声ならではの制約もある。

あなたにお薦め

今日のピックアップ

注目記事

おすすめのセミナー

セミナー一覧

注目のイベント

おすすめの書籍

日経BOOKプラスの新着記事

日経クロステック Special

What's New

【生成AI事例】デジタルで現場をDX化

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ