開発に9年かけた独自音声アシスタント、SiriやEchoには負けない

米サウンドハウンド社長兼CEO ケイヴァン・モハジャー氏

浅川直輝＝日経コンピュータ

2016.08.18

出典：ITpro 2016年 7月 28日
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

　音声アシスタント開発の米サウンドハウンド（SoundHound）は、2017年にも日本語対応のアプリを公開し、日本市場に参入する計画である。現在は、国内企業の連携先を探している。

　同社が米国で公開する「Hound」は、ExpediaやUberなど複数のサービスと連携した音声アシスタントアプリ。特徴として、声で質問してから応答までのスピードが速いことと、複雑な条件の質問、例えばホテル検索で「明日泊まるサンフランシスコのホテル、200ドル以上300ドル以下で、ペット同伴可、ジムとプールがあり、3つ星か４つ星で2泊します。WiFiが無いところは含めないでください」といった質問にも対応できることがある。

　同社は元々、鼻歌やハミングで音楽を検索できるアプリ「Midomi（現SoundHound）」の開発で知られ、現在も世界で約3億のユーザーを抱える。米アップル、米グーグル、米アマゾン・ドット・コムといった競合がひしめく音声アシスタントの領域で、どのように戦っていくのか。サウンドハウンド社長兼CEO（最高経営責任者）のケイヴァン・モハジャー（Keyvan Mohajer）氏に聞いた。

（聞き手は浅川直輝＝日経コンピュータ）

なぜ「鼻歌による音楽検索」から「音声アシスタント」へと軸足を移したのか。

米サウンドハウンド社長兼CEOのケイヴァン・モハジャー氏

[画像のクリックで拡大表示]

　私は米スタンフォード大で博士課程を取得した後、2005年に共同創業者と共に起業した。その当時からビジョンとして持っていたのが、音声アシスタントの開発だった。私の専門は音声認識技術で、「将来はコンピュータと人間が会話できるようになる」との信念を持っていた。

　我々は起業にあたり、音声認識や自然言語処については他社からライセンスを受けず、自社開発する考えだった。だが、ゼロから作り始めるとすれば10年はかかる可能性があった。

　「10年は長すぎる。3年でできるものはないか」。出資を依頼したベンチャーキャピタル（VC）から指摘を受けた我々は、3年で開発できるものを考えた。「音声認識技術を応用して、ハミングで音楽を検索するサービスなら作れそうだ」。

　そこで我々は資金を得て、3年をかけて音楽検索アプリを開発した。幸いにも3億人がアプリをダウンロードし、収益に貢献した。その間にも、音声アシスタントの基礎技術の開発は密かに継続していた。

　そして、9年近い開発期間を経て、2015年にリリースしたサービスが「Hound」と「Houndify」だ。

　消費者向けの音声アシスタントアプリ「Hound」は、音声でアプリに話しかけることで、天気の予報、ホテル予約、タクシー配車といったアシスタント機能を実行できる。開発者向けの「Houndify」は、独自の言語を使って音声対話アシスタントを自ら開発し、クルマや家電などに組み込むことができる。

「音楽検索」から「音声アシスタント」へと事業の軸足を移すことについて、投資家はどう反応したのか。

　起業の当初から、投資家は我々のビジョンについて理解してくれていた。そこで我々は、2006年から音楽検索の開発と並行し、音声認識や自然言語処理の開発を進めることができた。

　最初は専任2人だけで開発を始めたが、現在では約150人の従業員のうち100人ほどが「Hound」「Houndify」の開発に従事している。

音声アシスタントの領域では、米アマゾン・ドット・コムの「Amazon Echo」、米グーグルの「Google Now」、米アップルの「Siri」、米マイクロソフトの「Cortana」がしのぎを削っている。どのような技術で差異化するのか。

　一つは、我々が「Speech to Meaning」と呼ぶ技術だ。音声をテキストに変換し、そのテキストを理解するのではなく、音声からダイレクトに意味を理解する。音声認識と自然言語理解のエンジンを統合したイメージだ。このため、音声を入力してから検索結果が出るまでの時間が、他社サービスよりも短い。

　ユーザー体験を考慮し、アプリでは別途テキストも認識し、画面に表示している。だが実際にはテキスト生成の前に意味の解析を終えている。

　もう一つは、複雑な条件の質問を論理的に解釈できるようにしたことだ。検索に足りない要素があれば、アプリ側がユーザーに追加で質問することもある。

　他の音声アシスタントは、キーワード検索の延長という領域から脱し切れていないと考えている。例えば「サンフランシスコの天気はどうですか？」と問いかけると、主要キーワードとして「サンフランシスコ」と「天気」を切り出し、そこから必要な情報を検索するイメージだ。

日本語への対応を含めた多言語化の計画は。

　多言語対応は、これから2年で進めていく。コア技術の開発は9年かかったが、このコア技術は言語に依存していない。

　ただし、各言語固有の音響モデルを作る必要はあり、ここには相応のリソースを配分することになる。

開発に9年かけた独自音声アシスタント、SiriやEchoには負けない

このコラムのバックナンバー

データ分析の第三の波、「分析の拡張」を採り入れられる企業の条件とは

社内コミュニケーション活性化でビジネス拡大、ガートナーが提唱する意識改革

クラウド基盤戦略に欠かせない「統合」の視点、ガートナーのヴィンセント氏に聞く

オラクルDBは「自動運転車」、AWSのRDSはオートマチック車程度

「粗々だからいいんだよ」、パナ樋口氏が招いたCDOの改革術

編集部イチ押しの資料（ホワイトペーパー）

迫られる「Windows 11」への移行、負担が少ないタイミングと方法は？

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは