日立ソリューションズの「活文 Intelligent Data Extractor」(活文IDE)は、取引先ごとに形式が異なる請求書などの紙文書から、同じ項目のデータを自動的に抽出するソフト。オプションで活字や手書き文字をOCR(光学文字読み取り)で読み取る機能もある。
活文IDEを使うと、請求書に書かれている取引先名や支払い金額など、紙文書に書かれているテキスト情報を抽出できる。機械学習を活用したアルゴリズムによって、形式が異なる文書であっても、罫線や周辺の文字情報をもとに文字の候補を抽出する。抽出結果が誤っていた場合は、訂正内容を学習させて精度を高められる。
オプションでOCR機能を利用できる。別途OCRソフトを導入することなく、スキャナで文書を読み込むだけで、文字の認識からテキストデータの抽出までを自動的に実行する。OCRオプションの種類に応じて、活字のテキストデータだけでなく手書き文字もテキストデータ化できる。
背景には、領収書や申請書など、手書き文字を含んだ書類が膨大にあるという状況がある。これらの電子データ化は、これまでのOCR処理では実現が難しかった。書類ごとに読み取り位置の設定作業が必要など、さまざまな課題があった。活文IDEにより、読み取り位置を設定せずに書類の電子データ化ができるとしている。
活文 Intelligent Data Extractorの概要
用途と機能 | 取引先ごとに形式が異なる請求書などの紙文書から、同じ項目のデータを自動的に抽出するソフト。請求書に書かれている取引先名や支払い金額など、紙文書に書かれているテキスト情報を期待通りに抽出できる |
---|---|
特徴 | 機械学習を活用したアルゴリズムによって、形式が異なる文書であっても、罫線や周辺の文字情報をもとに文字の候補を抽出する |
オプション | オプションの適用によって、活字や手書き文字をOCR(光学文字読み取り)で読み取ることもできる |
価格(税別) | 活文IDEが360万円から 活字OCRオプションが200万円から 活字OCRオプション+手書きOCRオプションが360万円から |
発表日 | 2017年10月5日 |
提供開始日 | 2017年10月6日(活字をOCR処理するオプション) 2017年1月1日(手書き文字をOCR処理するオプション) |