音声アシスタント開発の米サウンドハウンド(SoundHound)は、2017年にも日本語対応のアプリを公開し、日本市場に参入する計画である。現在は、国内企業の連携先を探している。

 同社が米国で公開する「Hound」は、ExpediaやUberなど複数のサービスと連携した音声アシスタントアプリ。特徴として、声で質問してから応答までのスピードが速いことと、複雑な条件の質問、例えばホテル検索で「明日泊まるサンフランシスコのホテル、200ドル以上300ドル以下で、ペット同伴可、ジムとプールがあり、3つ星か4つ星で2泊します。WiFiが無いところは含めないでください」といった質問にも対応できることがある。

 同社は元々、鼻歌やハミングで音楽を検索できるアプリ「Midomi(現SoundHound)」の開発で知られ、現在も世界で約3億のユーザーを抱える。米アップル、米グーグル、米アマゾン・ドット・コムといった競合がひしめく音声アシスタントの領域で、どのように戦っていくのか。サウンドハウンド 社長兼CEO(最高経営責任者)のケイヴァン・モハジャー(Keyvan Mohajer)氏に聞いた。

(聞き手は浅川 直輝=日経コンピュータ


なぜ「鼻歌による音楽検索」から「音声アシスタント」へと軸足を移したのか。

米サウンドハウンド社長兼CEOのケイヴァン・モハジャー氏
米サウンドハウンド社長兼CEOのケイヴァン・モハジャー氏
[画像のクリックで拡大表示]

 私は米スタンフォード大で博士課程を取得した後、2005年に共同創業者と共に起業した。その当時からビジョンとして持っていたのが、音声アシスタントの開発だった。私の専門は音声認識技術で、「将来はコンピュータと人間が会話できるようになる」との信念を持っていた。

 我々は起業にあたり、音声認識や自然言語処については他社からライセンスを受けず、自社開発する考えだった。だが、ゼロから作り始めるとすれば10年はかかる可能性があった。

 「10年は長すぎる。3年でできるものはないか」。出資を依頼したベンチャーキャピタル(VC)から指摘を受けた我々は、3年で開発できるものを考えた。「音声認識技術を応用して、ハミングで音楽を検索するサービスなら作れそうだ」。

 そこで我々は資金を得て、3年をかけて音楽検索アプリを開発した。幸いにも3億人がアプリをダウンロードし、収益に貢献した。その間にも、音声アシスタントの基礎技術の開発は密かに継続していた。

 そして、9年近い開発期間を経て、2015年にリリースしたサービスが「Hound」と「Houndify」だ。

 消費者向けの音声アシスタントアプリ「Hound」は、音声でアプリに話しかけることで、天気の予報、ホテル予約、タクシー配車といったアシスタント機能を実行できる。開発者向けの「Houndify」は、独自の言語を使って音声対話アシスタントを自ら開発し、クルマや家電などに組み込むことができる。

「音楽検索」から「音声アシスタント」へと事業の軸足を移すことについて、投資家はどう反応したのか。

 起業の当初から、投資家は我々のビジョンについて理解してくれていた。そこで我々は、2006年から音楽検索の開発と並行し、音声認識や自然言語処理の開発を進めることができた。

 最初は専任2人だけで開発を始めたが、現在では約150人の従業員のうち100人ほどが「Hound」「Houndify」の開発に従事している。

音声アシスタントの領域では、米アマゾン・ドット・コムの「Amazon Echo」、米グーグルの「Google Now」、米アップルの「Siri」、米マイクロソフトの「Cortana」がしのぎを削っている。どのような技術で差異化するのか。

 一つは、我々が「Speech to Meaning」と呼ぶ技術だ。音声をテキストに変換し、そのテキストを理解するのではなく、音声からダイレクトに意味を理解する。音声認識と自然言語理解のエンジンを統合したイメージだ。このため、音声を入力してから検索結果が出るまでの時間が、他社サービスよりも短い。

 ユーザー体験を考慮し、アプリでは別途テキストも認識し、画面に表示している。だが実際にはテキスト生成の前に意味の解析を終えている。

 もう一つは、複雑な条件の質問を論理的に解釈できるようにしたことだ。検索に足りない要素があれば、アプリ側がユーザーに追加で質問することもある。

 他の音声アシスタントは、キーワード検索の延長という領域から脱し切れていないと考えている。例えば「サンフランシスコの天気はどうですか?」と問いかけると、主要キーワードとして「サンフランシスコ」と「天気」を切り出し、そこから必要な情報を検索するイメージだ。

日本語への対応を含めた多言語化の計画は。

 多言語対応は、これから2年で進めていく。コア技術の開発は9年かかったが、このコア技術は言語に依存していない。

 ただし、各言語固有の音響モデルを作る必要はあり、ここには相応のリソースを配分することになる。