目標は“心のこもった”会話の実現
発話のリズムから感情を推測

［感性情報処理］

八木玲子

2005.08.26

写真1●んとと君
NTTと日本SGI，エイ・ジー・アイが共同開発したもの。人間が何か話しかけると，その感情に応じて応答を変化させる。音声認識はしていないため，「ふへー」「そんなこと言っても分からないよ」など，たわいない答えを返す。

写真2●STを利用したチャットソフト
カメラで顔の傾きを認識してキャラクタの首を動かすと同時に，STで認識した感情を基に表情を変化させる。

　人間は対話するとき，会話の内容以外に多くの情報をやり取りしている。相手の表情，しぐさ，声のトーンなどを手がかりに，相手の状態を読み取る。

　日本SGIとエイ・ジー・アイは，このような言葉にならない情報（非言語情報）を人間とコンピュータとのやり取りに利用するための技術を開発している。この技術を盛り込んだアプリケーションを試作，2005年6月に開催された「産業用バーチャル・リアリティ展」で披露した。

発話のリズムで感情を理解

　両社が開発した技術の名称は「ST（Sensibility Technology）」。人が発した声を基に，その人の感情を推測する。このとき，発話の内容を一切関知しない。発話内容の解析（音声認識）は，周囲の雑音や発話者の訛りなどで精度が大きく左右されるからだ。それに「人間は，会話の内容が分からなくてもそれなりに感情を推測できる」（エイ・ジー・アイの光吉俊二社長）。実際に被験者を集めて，声だけを聞いたときに人間が話し手の感情をどの程度推定できるか調べた。発話の内容が理解できる場合と，外国語のように理解できない場合の両方でテストしたところ，前者は63％程度，後者でも55％程度の正答率だったという。

　STを実装するにあたり注目したのは，発話のリズム。ある一定時間の発話の周波数成分を解析して，特徴量の変化から感情を推測する。対話が録音されている1～3分間程度のファイルを4万個ほど人間が聞いて人の感情を推定し，周波数成分との相関関係を導き出した。現在のところ，感情を怒り，喜び，悲しみ，平常，笑い，興奮の6種類に分ける。正答率は60～65％程度。「人間の正答率は60～70％ほど。ほぼ人間と同等」（光吉氏）。

　この技術を利用して試作したアプリケーションは二つ。一つは，NTTと共同開発した「んとと君」という対話アプリケーション（写真1）。言語認識を一切せず感情認識だけで実装した。例えば楽しそうな声で「んとと君元気？」と話しかけると「ハッピー，ラッキー，ウッキッキー」などと答える。もちろん意味のある会話はできないが，感情を推測することでたわいないながらもコミュニケーションできることを示せた。

　もう一つはチャットソフト（写真2）。発話している人の表情をカメラで読み取り，アニメーションで相手に伝える機能を持つ沖電気工業の「FaceCommunicator」と統合した。表情が大きく変わらない場合でも，音声を利用すれば多くの感情表現が可能になる。

　STは現在，カーナビや玩具，コールセンターなどの分野で実用化に向けた動きが進んでいる。今年度内には，搭載製品が登場する見込みだという。

ゆくゆくはロボットに

　日本SGIとエイ・ジー・アイは，ゆくゆくはこの技術をロボットに搭載する予定だ。そのため，既にST次版の開発に着手している。

　まず，次版には音声認識も盛り込む。さらに，人間の心理状態の変化をモデル化する作業を進めている。「人間は，相手の反応を見て自分の感情を変化させる。これをコンピュータで推測できれば，人間の感情を理解しやすくなるし，ロボットからも自然な答えが返せる。将来的には，人間同士のような心のこもったコミュニケーションをSTで実現したい」（日本SGI戦略事業推進本部の大塚寛本部長）。2006～2007年の製品化を目指している。