米Googleは,オープンソース・コミュニティSourceForge.netで文字認識(OCR)エンジン「Tesseract」を公開した。Google最上級技術リード(Uber Tech Lead)のLuc Vincent氏が米国時間8月,公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。

 Tesseractは,米Hewlett-Packard(HP)が1985~1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校(UNLV)が1995年に開催したOCRソフトウエアの精度を評価するコンテストで,トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから,「Tesseractはほこりをかぶっていた」(Google)。

 その後「HPの関係者がTesseractをお蔵入りさせるよりも公開した方がよいと考え」(Google),UNLVの情報科学研究所と共同で2005年にオープンソース化した。Googleはバグ修正などで協力し,2006年1月27日にSourceForge.netに登録した。

 現在Tesseractが認識可能な文字は白黒2値で表現された英語だけで,グレイ・スケールやカラーの文書には対応していない。ページ・レイアウト解析モジュールも備えていないので,複数段組の文書はうまく処理できない。さらに,現時点で入手可能な最高クラスのOCR製品と比べると,認識精度が落ちるという。ただしVincent氏は「欠点はあるものの,Tesseractの認識精度はオープンソースOCRのなかで最も高い」としている。

 米メディア(CNET News.com)によると,Tesseractのほとんどの部分はApacheオープンソース・ライセンスが適用されているものの,一部に商業利用を制限する第2のライセンスが付加されているという。

[Vincent氏の投稿]