魅惑の新機能、Webブラウザーの未来

新里祐教

GMOインターネット

2018.02.08

　最新のWebブラウザーには、処理性能の改善のほかにも、将来役立ちそうな新機能を搭載している。そのいくつかを紹介しよう。

VRアプリを簡単に作成

　まず最初に紹介する機能は「WebVR」だ。

Webブラウザー上でVR体験ができるWebVR

[画像のクリックで拡大表示]

　VR（仮想現実）と言えば、Oculus RiftやPlayStation VRのような専用のヘッドマウントディスプレイ（HMD）を装着して、専用のアプリでVRの世界を楽しむイメージを思い浮かべる人が多いだろう。最近では段ボールとスマートフォンを組み合わせたGoogle Cardboardと呼ばれるHMDが登場し、Android/iPhoneアプリでVRを手軽に体験できるようになった。ただ、VRに対応したアプリの開発にはUnityやBlenderといった専用の3Dソフトを使う必要があり、ハードルは高かった。

　そこで専用の開発環境を使わずに、WebブラウザーでVR体験ができるように作られた仕様がWebVRである。現在、Chrome、Firefox、Edgeで利用できる。

　WebVRを使えば、Webエンジニアが慣れ親しんでいるHTML/JavaScriptだけでVRアプリケーションを手軽に作成できる。単に映像を見るだけではない。スマートフォンを利用する場合はジャイロ・加速度センサー・磁気センサーを利用してヘッドトラッキング（頭がどこを向いているかを検知）ができるほか、Firefoxでは立体音響も再現できる。

しゃべったことを文字に変換

　次に「WebSpeech」を紹介しよう。これはWebブラウザーに音声の発話や認識（テキスト化）を実行させる機能だ。最近はやりのスマートスピーカーは、音声を読み上げたり、話しかけると内容をテキストにしてプログラムで使えたりする。これと同じことがWebブラウザーでできるようになる。

　WebSpeech APIの仕様は既にW3Cによって2012年に策定されていて、ほとんどのWebブラウザーでJavaScriptから利用できる。筆者が作ったWebSpeech APIのページをChromeで開いて、YouTubeの動画を流して音声を文字にした。

Webブラウザーで音声をテキストにできるWebSpeech API

[画像のクリックで拡大表示]

　音声認識された文字が日本語で、しかも漢字変換されて取得されている。字幕とWebSpeech API、そして実際に話されている内容を比べてみると次のようになる。

実際に発話された内容：「このクロロフィル蛍光の強さの変化の形がですね　植物の健康状態によって大きく変化する」

字幕：「クロロフィル蛍光の強さの変化の形が植物の健康状態によって大きく変化する」

WebSpeech APIの変換結果：「このクロロフィル蛍光の強さの変化の形ですね　植物の健康状態によって大きく変化する」

　字幕は人間が読みやすいように意訳されている。WebSpeech APIは「変化の形がですね」の部分で「が」の抜けがあるものの、音声がそのまま文字にされている。ただ実際は、話の内容やマイクの向きなどで認識の精度は大きく変わるようだ。

　音声認識自体はChromeで処理していない。通信をキャプチャして確かめたところ、音声認識の実行中はChromeとグーグルのサーバーがQUICで通信していた。音声データをグーグルのサーバーに送信し、解析した結果を受け取ってJavaScriptで利用するといった流れだと想定される。

　このWebSpeech APIは音声認識だけでなく、文字の読み上げをWebブラウザーに行わせることも可能だ。さらに声の種類を男性あるいは女性に設定したり、漢字を含む文章も自然に読み上げたりできる。目や耳が不自由な人でもネットの情報を読み上げたり文字化したりできるほか、文字化された音声を解析する対話エンジンを自作することもできるだろう。