「JavaScriptで自動文字認識」プログラムについての解説の前編では、JavaScriptを使って、画像に書かれている文字をテキストで抽出するプログラムを作りました。

 前編で簡単なテストプログラムを作るところまで進めましたが、今回は、複数の画像から連続で文字認識をして、テキストファイルに保存するプログラムを作ってみましょう。Webサイトのスクリーンキャプチャーや、スキャンした画像などをテキストとして保存するのに便利なプログラムです。

MicrosoftのOCRライブラリー「MODI」について

 今回解説するプログラムは、Windows専用です。JavaScriptから手軽に画像文字認識を行うために、Microsoftが提供する「MODI」のOCR機能を利用します。このライブラリーのために、無料でダウンロード可能な「SharePoint Designer 2007」をインストールする必要があります。

 必要なライブラリーだけをインストールする方法については前編で詳しく説明していますので、そちらをご覧ください。

プログラムの使い方

 今回のプログラムは、こちらからダウンロード(118-program.zip)することができます。Windows上で動作するWSH/JScriptで作っています。ダウンロードしたアーカイブファイルを解凍すると「連続OCR.jse」というファイルがあり、これがメインプログラムです。

 文字の書かれた複数の画像ファイルを、この「連続OCR.jse」にドラッグ・アンド・ドロップすると、文字認識の処理が行われ、「(画像ファイル名).out.txt」の名前で認識したテキストを保存します。