チャットボットに続き、音声でシステムを操作する音声アシスタントに対する注目度が高まってきた。スマートスピーカーの相次ぐ登場は、その象徴といえる。

 チャットボットも音声アシスタントも、実は裏側で使われる技術の多くは共通する。テキストによるコミュニケーションと音声のコミュニケーションの違いを押さえれば、チャットボットと同様に考えられる部分が多い。

 音声アシスタントならではの要素技術は、音声認識(Speech-to-Text)と音声合成(Text-to-Speech)だ。音声認識は、対話システムへの入力がテキストではなくユーザーの声であるため、これをテキストに変換する処理に用いる。

 技術自体は以前から存在するが、最近になって改めて注目が集まってきた。背景には、ディープラーニングによる認識精度の飛躍的な向上がある。正確にテキストに変換しやすくなり、対話システムの実用度が高まった。

 もう1つの音声合成は、対話システムで生成した応答文の結果をユーザーにフィードバックする際に、テキストを音声として読み上げるもの。ただし、通常のテキスト情報では複数の読み方がある言葉を読み間違えたり、アクセントを間違えたりする場合がある。識別できるように、音声合成記述言語のSSML(Speech Synthesis Markup Language)を用いるシステムもある。

音声が新たな可能性を開く

 音声を活用してシステムを構築すると、チャットボットには無い可能性が開ける。一方、音声ならではの制約もある。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。