これまで常にウォッチしていたわけではないが,かねてからコンピュータへの入力手段に興味を持っていた。キーボード入力時のかな漢字変換方式の違いはもちろん,紙に書かれた文字を認識するOCR(光学式文字認識),現在はタブレットPCやPocketPCなどで利用される手書き入力,そして音声入力などについて追いかけていたときもあった。今から10年ほど前までのことである。

 ただ,最近は担当する媒体がプログラミング系だったりサーバー系だったりしたこともあり,この分野についての情報に疎くなっていた。ところが最近,「音声認識や手書き入力がこんなに実用的なところまできていたのか」と思わされる出来事があった。「ニンテンドーDS」である。

 昨年末,家族にねだられてニンテンドーDSを,「脳を鍛える大人のDSトレーニング」と「もっと脳を鍛える大人のDSトレーニング」というゲーム・ソフトと一緒に購入した。最近話題のゲームで,いくつかの問題に答えていき,問題を答えるのに要した時間の短さ(スピードの速さ)を競う。その結果を「脳年齢」という指数によって表示するというものだ。回答時間が短いほど数値が小さくなり(年齢が若くなり),若いほど優秀というわけである。松嶋菜々子さんが出演しているテレビCMで,松嶋菜々子さんの脳年齢が「52歳」と表示されるアレだ。ちなみに,何回か試した結果から推測すると,最優秀は20歳ではないかと思われる。

音声認識と手書き入力によってゲームを進める

 買うまで知らなかったのだが,このソフトは音声認識と手書き入力によってゲームを進めるものだった。

 脳を鍛える大人のDSトレーニング・シリーズには,次のような何種類ものゲームが用意されている。

 画面に,「くろ」「あか」「あお」「きいろ」の4種類の文字列のうちの任意の1つが,その4色のうちの任意の色で表示される。ユーザーは表示された色をしゃべることで次々と問題をクリアしていく。「くろ」という文字列が赤色で表示されたら「あか」と答えなければならない。

 ほかにも,画面にじゃんけんの「グー」「チョキ」「パー」のいずれかの絵が表示され,それに「勝つ」か「負ける」かのどちらかの指示が出る。例えば,「グー」の絵と「負けてください」という指示が出たら,「チョキ」としゃべらなければならない。

 時間を競うゲームなので,認識ミスが多いとゲームにならない。また認識率が高くても,認識に時間がかかるのでは,やはりゲームとして成立しない。実際に試してみると,結構認識率が高いという印象を受けた。もちろん誤認識はある。だが十分実用的だ。ゲームとして販売されているので当たり前だが,ゲームとして十分成立する性能を備える。

 しかも驚きなのは,このゲームで利用しているのは不特定者に対する音声認識である点だ。複数のユーザーが利用でき,事前の学習作業は不要である。以前の音声認識システムでは,あらかじめ学習処理をする必要があるものが多かった。

 脳を鍛える大人のDSトレーニング・シリーズで,不特定者の音声認識を可能としている要因には技術革新もあるのだろうが,認識対象の言葉が限定されていることも大きく寄与しているだろう。ユーザーがしゃべった単語は,「くろ」「あか」「あお」「きいろ」の4種類のどれか,あるいは「グー」「チョキ」「パー」の3種類のどれかに一致するはず,という条件が必ず成立するからである。

 ほかにも,1けたの数値同士の四則演算もある。この場合は答えの数字を手書き入力する。答えは1けたの場合と2けたの場合がある。2けたの数字を入力する場合は,十の位を入力し終えた段階では1けたの数字を入力した場合と変わらない。そのため次の一の位の数字を入力するだろうと思われるまでの時間だけ待ってから認識する必要があると考えられる。が,その待ち時間をあまりに長くとってしまうと,ゲームとして成立しなくなってしまう。時間を競うゲームだからだ。待ち時間には微妙なさじ加減が必要と思われる。実際には何も不自然さを感じさせられなかったので,このあたりはうまくチューニングされているのだろう。

 手書き入力するのは数字だけではない。演算子部分が隠された演算式が表示され,その演算子「+」「-」「×」「÷」のいずれかを答えるものもある。例えば,「2□3=6」という問題なら,「×」と手書きする。実際にやってみると,この場合の誤認識はほとんどない。誤認識されたのは自分の書き方が悪かった場合だけだった。急いで書くので,「+」を多少斜めに書いてしまい「×」と認識されるケースだった。書き順は違うものの,システムからすると,斜めに書いた「+」は「×」に違いない。

 なお,話はそれるが,この演算子を答える問題は,標準問題を速く解けると,より難しい問題に挑戦できるようになる。例えば「2□3□4=14」のように3項になるのである(この場合は「+×」と答える)。3項になると,とたんに難しくなる。私の場合,2項の問題を20問解くのにだいたい17秒くらいだったが,3項の問題になると20問解くのに分単位の時間がかかってしまい,間違いも増えた(間違えるとペナルティが加算される)。

 ある1文字の漢字を構成する部首(というよりさらに細分化したパーツ)が表示され,元の漢字を答えるというクイズもある。例えば,「女」「又」「力」が表示されたら,「努」と答えるものだ。漢字は数字や演算記号と違って複雑である。だがこれもよく認識する。たまに,答えが分からないので苦し紛れにあり得ない字を書いても,正しい字として認識してしまうこともあるが,それはそれでご愛敬である。システムは,入力された字が,実在する字の中のどれかであるという前提で認識しようとするからだ。

 このように,販売価格の安いハードウエアとゲームなのだが,そこに利用されている技術レベルは高いものがあるということを再認識させられた。このような音声認識や手書き入力の技術は,ゲームにとどまらず,ほかの分野にもぜひ応用してほしいものだ。

 例えば最近の電車の券売機は,タッチ・パネルの操作感(クリック感)の無さもあって,あまり操作性がよいとは感じられない。通常の切符を買うのに必要な情報は,目的地の駅名だけである。しかも駅名は限られているので,音声認識システムから見ると,フリー・ワード認識ではなく,候補が限られているということになる。駅名をしゃべることで切符が買える券売機ができれば,券売機の前でまごつく人を見かける機会も減るのではないだろうか。

 最後に私の脳年齢を発表しよう。脳年齢のチェック時には,音声認識を利用したテストと利用しないテストの2種類が選べる。それぞれ複数の問題を行い,それにかかった時間から判定される。音声認識を利用した場合は33歳だった。それが実力だといわれればそれまでだが,少なからず誤認識があるので,その分ムダな時間が余計にかかった。

 それに対して音声認識を利用しない場合は21歳だった。このとき出た問題のうち,1けたの数値同士の四則演算を20問解くのが15秒だった。問題はランダムに出題されるが,1けたの暗算ならば,演算結果が1けたになる問題がたくさん出た方が結果がよくなる。答えが2けたになる場合は,答えを書くのにかかる時間が2倍近くになるからだ。しかも手書きの方が誤認識が少ない。何回か試してみても,音声認識を利用しない場合の方が脳年齢は若く出た。

山口 哲弘=IT Pro