日本IBM、書籍テキスト化システムのプロトタイプを国会図書館向けに開発

高下義弘

ITpro

2011.08.01

写真1●共同校正機能の画面例。OCRで同じ文字として認識された文字を一括表示し、比較確認しやすくした

[画像のクリックで拡大表示]

写真2●共同構造化機能の画面例。書籍の読み上げ順序の確認・修整作業が画面上で視覚的に可能になっている

[画像のクリックで拡大表示]

　日本IBMは2011年8月1日、国立国会図書館が推進している蔵書のデジタル化作業に向けて、システムのプロトタイプを開発したと発表した。

　国会図書館は現在、蔵書のデジタル化作業を進めている。その一環として2010年10月から2011年3月まで、「全文テキスト化実証実験」を実施した。この事業は、紙の書籍を正確かつ効率的にテキストデータ化する方法について、実証実験を通じて探るもの。日本IBMはこの事業のうち、テキストデータ作成に関する領域を受託して、テキストデータの作成を支援するシステムのプロトタイプを開発した。

　この実験で対象とした蔵書は、明治から昭和にかけての書籍43冊。一般的に書籍のデジタル化作業ではまず、書籍をOCRでコンピュータに認識させ、テキストデータに変換させていく。ところが「日本語の書籍、とくに古い書籍では、旧字や異体字などが混在していたり、レイアウトが特殊であったりするため、自動化が困難」（日本IBM）。そこで今回のプロトタイプでは、次のような工夫を凝らしたという。

（1）共同校正機能

　人手による校正作業を効率化するため、Webブラウザ上で複数人の校正担当者が同時に作業を進められる機能を搭載した。これにより、担当者ごとに作業の内容を分担できるようになり、校正作業の効率化がねらえる。

　また構成画面では、OCRで読み込んだ結果、同じ文字として認識された文字群を一覧表示する。これによりそれらの文字が本当に同じ文字かどうかを比較確認できるので、校正作業が効率的に進められる（写真1）。加えて、校正した結果をOCRのソフトウエアに再学習させるため、使っていくうちに文字認識の精度が上がる。

（2）共同構造化機能

　視覚障害者が読み上げソフトを使って書籍を読む際には、書籍のテキストデータに構造化情報が必要となる。構造化情報とは、見出しや本文、目次、図、注釈、ページ番号といった属性情報、あるいはページ内でどこからテキストを読み始めるかといった読み上げる順番の情報などである。

　このプロジェクトではテキスト化するに当たって、校正作業と並行して構造化の作業を実施している。システムのプロトタイプではこの構造化作業を実施しやすくする機能を備えた。テキストデータから構造情報を自動的に推論して担当者にガイドする機能、読み上げ順序を一筆書きで表現したうえでドラッグ・アンド・ドロップ操作で修正する機能などである（写真2）。