ソニーモバイルコミュニケーションズの音声アシスタント「Xperia Ear」が、日本でも発売されると発表された。このデバイスは耳に装着し、聞こえてくるメッセージに音声やジェスチャーで応えながら操作する。ディスプレイよりも音声を主体として操作するデバイスの増加は、我々の生活にどのような変化を与えようとしているのだろうか。

声とジェスチャーだけで操作する「Xperia Ear」

 ソニーモバイルコミュニケーションズが、スマートフォン以外にも「Xperia」のブランドを冠し、新たな取り組みを進める「Xperia smart products」。2016年2月にMobile World Congress(MWC)でその構想が発表され、9月のIFAでさらなるブラッシュアップと一部製品の欧州での発売が発表されたのは以前触れた通りだ(「「Xperia smart products」が見せるソニーモバイルの変化」参照)。

 これまで海外でしか発表がなされていなかったXperia smart productsだが、10月6日、国内に向けても本格的に展開する動きを見せている。ソニーモバイルはXperia smart productsの中の1つ「Xperia Ear」を、日本でも11月8日に発売すると発表した(写真1)。

写真1●「IFA 2016」で欧州での発売が既に発表されているXperia Earだが、10月6日には日本での発売も発表となった。写真は9月1日にIFA 2016会場で実施されたソニー新製品発表会より(筆者撮影)
写真1●「IFA 2016」で欧州での発売が既に発表されているXperia Earだが、10月6日には日本での発売も発表となった。写真は9月1日にIFA 2016会場で実施されたソニー新製品発表会より(筆者撮影)
[画像のクリックで拡大表示]

 Xperia Earについて改めて確認しておくと、これは耳に装着して利用する音声アシスタントデバイス。より分かりやすく言うならば、耳に装着して米アップルの「Siri」のような音声アシスタント機能が利用できるデバイスである。

 Xperia EarはAndroidスマートフォンとBluetoothで接続し、耳に装着することで自動的にニュースや天気などの情報を伝えたり、SMSやLINEなどで着信したメッセージを読み上げたりしてくれる。届いたメッセージに対して声で返信できる機能も用意されているほか、声で話しかけて指示することにより、連絡先に登録した相手に電話をかけたり、予定を確認したり、人物名などを検索したりと、様々な操作が可能になる(写真2)。

写真2●Xperia Earではスマートフォンに届いたメールやメッセージを読み上げ、さらにそこから声で話しかけることによって返信もできる。写真はIFA 2016のソニーブースから(筆者撮影)
写真2●Xperia Earではスマートフォンに届いたメールやメッセージを読み上げ、さらにそこから声で話しかけることによって返信もできる。写真はIFA 2016のソニーブースから(筆者撮影)
[画像のクリックで拡大表示]

 現状では道案内など、一部機能を利用する際にスマートフォンを取り出す必要があり、完全に全ての操作が音声で完結するわけではない。だが日常生活で必要な多くの操作が、Xperia Earとの対話やジェスチャーによって可能となり、ディスプレイをほとんど見る必要がなくなるというのは、従来のデバイスにはない大きな特徴といえるだろう。

 筆者も日本語版のXperia Earを試すことができたが、音声認識のタイミングなどに若干慣れが必要であったり、一度聞いてしまったメッセージを再度読み返せなかったりと、不満を抱く要素がいくつかあるというのが正直な所だ。しかしながら作業中に手を離してスマートフォンを確認する必要がなく、メッセージの返信対応などができることから、うまく使いこなせばとても便利なのは確かであるし、今後の進化が非常に楽しみなデバイスだと感じた。

ディスプレイから声にシフトするスマートフォンの操作

 こうした音声操作によるアシスタント機能は、スマートフォンでは既に、先に触れたSiriなどで実現しているものだ。だが従来、それらの機能は通常のスマートフォン操作の補助的な要素として位置付けられており、ディスプレイとタッチ操作がスマートフォンの利用スタイルの中心となっていることに変わりはない。

 だが最近、そのスマートフォン操作の在り方が、徐々にタッチ操作から音声操作主体へと変化しつつあることを示す出来事がいくつか起こっている。そのうちの1つが、米グーグルが10月4日(現地時間)に発表した新しいスマートフォン「Pixel」と「Pixel XL」である(写真3)。

写真3●グーグルが発表した新しいスマートフォン「Pixel」と「Pixel XL」は、Google Assistantを活用し、声で話しかけて様々な操作ができるのが特徴だ
写真3●グーグルが発表した新しいスマートフォン「Pixel」と「Pixel XL」は、Google Assistantを活用し、声で話しかけて様々な操作ができるのが特徴だ
出所:Google Official Blog
(https://googleblog.blogspot.jp/2016/10/introducing-pixel-our-new-phone-made-by.html)
[画像のクリックで拡大表示]

 発表会の中で、両機種の最大の特徴としてグーグルがアピールしていたのは、今年のGoogle I/Oで公表された、AI活用の新音声アシスタント「Google Assistant」を搭載していることだ。「OK、Google」と話しかけた後に、声で様々な指示を出すことにより、見たい写真をピックアップしたり、友人にメッセージを送ったり、レストランの予約をとったりと、多彩な操作ができるようになるという。

 一連のデモを見る限り、グーグルはPixelシリーズでスマートフォンにAIと音声操作を採用することにより、今後のスマートフォンの操作は音声を主とし、従来のタッチ操作を副次的なものとして位置付けようとしているようにも見える。それによって従来のスマートフォンの操作体系を大きく変化させ、スマートフォンを新たな方向へと進化させたい狙いがあると言えそうだ。

 音声操作の利用を高めようとしているのはグーグルだけではない。アップルも、新しいiPhone「iPhone 7」「iPhone 7 Plus」を発表した際、イヤホン端子を廃止した代わりにワイヤレスヘッドホンの利用を前面に打ち出しているが、同時に「AirPods」という独自のワイヤレスヘッドホンを提供すると発表している(写真4)。

写真4●iPhone 7/7 Plusに合わせて発表されたワイヤレスヘッドホン「AirPods」。音楽を聴くだけでなく、マイクを搭載しており、Siriを呼び出して声で操作できるのが特徴だ
写真4●iPhone 7/7 Plusに合わせて発表されたワイヤレスヘッドホン「AirPods」。音楽を聴くだけでなく、マイクを搭載しており、Siriを呼び出して声で操作できるのが特徴だ
出所:Apple Press Info(http://www.apple.com/jp/pr/products/)
[画像のクリックで拡大表示]

 AirPodsは音楽を聴くためのヘッドホンではあるものの、マイクも搭載しており、Siriを呼び出してiPhoneを取り出すことなく音声操作ができる点も特徴として挙げられていた。こうした点からも、音声アシスタントの強化でスマートフォンの音声操作に力を入れる企業が増えていることを見て取ることができるだろう。

コンピューターの進化で機械が人間に合わせる時代に

 音声アシスタントを用い、声で操作するスタイルは、以前に触れたスマートホーム関連デバイスでも積極的に取り入れられており、スマートフォン以外の分野にも急速に広がっていることが分かる(「なぜ今、世界各地でスマートホームの取り組みが活発になっているのか」参照)。実際グーグルは、Pixelと同時に発売を発表したホームデバイス「Google Home」にもGoogle Assistantを搭載しており、声で様々な指示をしながら必要な情報を得たり、家電を操作したりできる環境を実現するとしている。

 ではなぜ、今音声アシスタントをはじめとした、音声による操作に取り組む企業が増えているのだろうか。それはやはり人間にとって、声で話しながら相手に指示をすることが、キーボードやマウスを操作したり、ディスプレイをタッチしたりするよりもはるかに自然な行為だからと言えるだろう。

 これまではコンピューターの性能が低かったことから、人間がコンピューターに合わせて操作する必要があった。だが現在はコンピューターの性能が飛躍的に向上し、ブロードバンド回線とクラウドによって高性能なコンピューターを多くの人が利用しやすい環境も整っている。そうしたことから、コンピューターを人間に合わせて利用しやすくする取り組みが急速に進められるようになり、音声操作はその第1歩になっていると考えられる。

 そして音声アシスタントと同様、会話によってサービスを利用する取り組みが、今年話題となった「チャットボット」である(「マイクロソフトやフェイスブックが力を入れる「チャットボット」の可能性」参照)。チャットボットの広まりによって、ECなどのネットサービスもAIと会話するだけで利用できるようになれば、それが音声アシスタントと組み合わさることで、ネットサービスの在り方、引いてはコンピューターの利用スタイル自体が音声主体となるなど、劇的な変化がもたらされる可能性が高い。

 現在はまだ、音声アシスタントやチャットボットに利用されるAIも、音声認識システムも発展途上であり、人間とスムーズに会話ができるには至っていない。だがそうした技術に取り組む企業が増え、投資が増えれば進化のスピードも早まり、自然な会話を実現する可能性も大いに高まるものと考えられる。

 現在は声でスマートフォンを操作している人を見ると不自然な印象を抱いてしまう人も多いだろう。しかし現状の取り組みが進めば、ディスプレイを見ながら操作することが、逆に不自然で古臭いものとなる時代が、そう遠くないうちに来るのかもしれない。

佐野 正弘(さの まさひろ)
フリーライター
福島県出身、東北工業大学卒。エンジニアとしてデジタルコンテンツの開発を手がけた後、携帯電話・モバイル専門のライターに転身。現在では業界動向からカルチャーに至るまで、携帯電話に関連した幅広い分野の執筆を手がける。