凸版印刷とTISは2017年10月24日、人工知能(AI)を搭載したスマートスピーカーを金融機関の窓口案内業務などに提供することを目指して協業したことを発表した。両社の取り組みで目を引くのは、業務用をうたうスマートスピーカー「AISonar」を利用することだ。TISが音声合成技術を手掛けるエーアイと共同で開発した。
折しも国内では、メジャープレーヤーによるスマートスピーカーの発売ラッシュだ。10月5日には米グーグルが「Google Home」の日本語対応版を、LINEが「WAVE」を発売したばかり。さらに米アマゾン・ドットコムが「Amazon Echo」の日本語対応版を11月中にも発売する。
このようななか、凸版印刷とTISは独自の業務用スマートスピーカーでニーズの掘り起こしを目指す。一般向けのスマートスピーカーを業務に応用するには、現状では主に3つの課題があるためだという。多数の音声が混在する環境での認識精度、一問一答式よりも複雑な対話シナリオの設計、業務用途でのカスタマイズの柔軟性──である。
最大3音源を同時に識別
1つめの多数の音声が混在する環境での認識精度については、業務での利用場面に特有のニーズだ。一般家庭でのスマートスピーカー利用では、同時にスピーカーに話かけるのは1人というケースが多い。一方、例えば金融機関の窓口案内業務などで利用する場合、スピーカーの設置場所で多くの人が同時に会話する可能性が高い。その環境で、案内をしてもらうためにスピーカーに話しかけている顧客のユーザーを識別し、会話の内容を正確に認識する必要がある。
凸版印刷とTISが利用するAISonarは、現行の一般向けスマートスピーカーの2倍以上に相当する16チャネルの指向性マイクを内蔵。音声がどの方向から来ているのかを、一般向けの製品より細かく分けて識別し、誰がスピーカーに話しているのかを特定する。仕様上は最大3音源を同時に識別できるという。
10月26~27日に東京・有楽町で開催された「FIT2017 金融国際情報技術展」でも、両社はこの識別の良さを特徴の一つとして打ち出していた。金融機関の窓口の案内業務をイメージした接客デモンストレーションで、多数の音声が混在する環境でも、スピーカーに話している人の音声を正しく認識する様子を披露した。
応対の流れを対話シナリオで設計
2つめの課題である一問一答式よりも複雑な対話シナリオの設計は、特に業務利用では重要という。窓口業務などでは、顧客が問い合わせる内容に応じてどのように返答するか、応対の流れをフローチャートなどで整理した対話シナリオを用意しておくことが多い。スマートスピーカーで業務を代替するには、人間と同様に対話シナリオの流れに沿って回答できることが求められる。そこで、対話シナリオを設計する仕組みがバックエンドに必要になる。
現状の一般向けスマートスピーカーでは、「対話シナリオを設計する機能が不十分」とTISの白石康司AIサービス事業部AIサービス企画開発部主査は指摘する。「途中で条件分岐するような複雑な流れのシナリオを設計しにくい」(白石氏)。対話の内容を設計できるスマートスピーカーは存在するが、設計できるのは一問一答式のやり取りにとどまるという。