図6●文字認識の基本手順
基本手順自体は,各社ともほぼ共通している。違いが見られるのは,文字認識の段階における特徴抽出と,比較の方法だ。
図7●文字の濃淡を特徴量とする
文字認識の基本的な方法である。方法としてはシンプルだが,位置ずれに弱いなど欠点もある。
図8●文字の傾きを検出する
文字の傾きを特徴量として利用する手法の概念図。文字の成分を,A,B,C,Dの4方向の傾き成分に分解する。傾きの情報を7×7のマトリクス状の情報として保持する。

複合機の方が売れ筋

 高画質化と並ぶもう一つのトレンドが,複合機である。プリンタとスキャナ,モデムの機能を統合し,コピーやファクシミリとしても利用できるものだ。今や台数では単体のスキャナの1.4倍ほどに達している。「インクジェット・プリンタの出荷台数のうち,17%程度を複合機が占める」(日本ヒューレット・パッカードイメージング・プリンティング事業統括本部マーケティングの黒沼進治氏)レベルだ。

 ただし複合機に搭載されているスキャナは,単体製品のものと大きな違いはない。「基本的には,単体のスキャナをそのまま載せている」(セイコーエプソンの百瀬氏)。このため,スキャナ単体の進化が複合機にも反映される。

数%の精度向上を目指すOCR

 スキャナの重要な用途の一つが,紙で書かれた文書の電子化である。画像ファイリングという方法もあるが,より広範な用途での活用を可能にするのがOCRだ。

 スキャナで読み込んだ画像から,OCRソフトを使って文字を抽出し,テキスト・データに変換する。活字に関しては文字認識技術はかなり実績があり,既に高い認識精度が実現されている。多くのソフトが95%を超える認識率をうたっている。そして最後の数%を上げるために,各社の努力が続いている。

 文字認識の基本手順は,ほぼ標準的なものが確立されている(図6[拡大表示])。まず,画像データとして入力された原稿に前処理をし,ゆがみや傾きを修正する。次に文字データが存在する部分を検出し,行と文字を切り出していく。そしていよいよ認識処理に入る。まず,その文字を識別するための情報(特徴情報)を抽出する。それを用意されている辞書データと比較し,最も近いものを正解として認識する。

 ただしこれだけでは,漢字の「夕」とカタカナの「タ」のように,形が似ている文字の判別は難しい。このため,最後に言語処理を施して日本語としての正しさを解析し,認識精度を上げる。辞書データを使って,その単語が日本語としてあり得るものか判断する。あり得なければ,単語を形成し,かつ形が似ている文字に置き換える。

特徴抽出とマッチングがポイント

 この一連の流れで,認識の精度を左右する重要なポイントは二つある。(1)文字からどのような特徴を抽出するか,(2)抽出した特徴をどのように辞書データとマッチングするか,である。各社独自の技術やノウハウがものを言う部分であり,それが認識精度に大きく影響する。

 活字を認識する際の最も基本的な方法は,文字をマトリクス状に分割し,どのマスにどの程度文字の要素が含まれているかを抽出するものである(図7[拡大表示] )。エー・アイ・ソフトは,この方法を採用している。

 文字成分の傾きを使う方法もある。これはメディアドライブが採用している。文字を細かなマトリクス状に分割し,それぞれのマス目に含まれる文字成分の傾きを検出する。検出した傾きは,4方向に正規化する。さらに情報量を抑えるために,それぞれ7×7のマトリクス状の情報に圧縮して保持する(図8[拡大表示])。「圧縮することで失われる情報もあるが,逆に文字の少しの違いを吸収してくれる効果もある。同じ文字だが少し形が違う場合に,同じと判断できる」(メディアドライブの松村博代表取締役社長)。

 具体的な方式は違っても,何らかの形で文字から傾きの情報を抽出するのが現在の主流だ。例えばリコーも,「漢字に関しては文字の傾きを特徴として使っている」(リコーソフトウェア研究開発本部研究統括センター企画室の立川道義副室長)という。

 しかし,1種類の特徴量だけで高い精度を確保するのは難しい。このため,「複数の特徴量を組み合わせている」(パナソニックソリューションテクノロジーソフトウェア開発本部開発グループ開発第2チームの上村裕二郎チームリーダー)製品も多い。例えば,エー・アイ・ソフトが採用する図7の方法は,文字の位置ずれに弱いなどの欠点がある。これを補うため「独自に開発したやり方も含めて,三つの方法を組み合わせて特徴量を抽出している」(エー・アイ・ソフト商品企画設計部の鬼頭伸幸課長代理)。

 こうして抽出した特徴を使って,辞書データと照合する。その方法として何を使うかも重要なポイントである。有力な方法としては,ニューラル・ネットや線形識別,ベイズ識別といった解析方法がある。しかし,いまだ決定打は存在しない。

 例えばメディアドライブは,手書き文字の場合,数字と漢字でマッチング方法を分ける。「精度だけでなく計算量などの要素も含め,最良の方法は一概に決められない。どのマッチング法を使うかが,今一番競争が激しいところだ」(メディアドライブ開発本部新規開発統括グループの中村典充統括マネジャー)。

(八木 玲子)