注目の書籍

好評発売中!

IT業界徹底研究就職ガイド2013年版

IT/ネット業界で働くと いうことを分かりやす く解説。2013年3月卒 業の学生向けの1冊。

必聴講座ご紹介

Cloud Days Tokyo 2012
クラウド時代を勝ち抜く企業戦略を考える

エムオーテックス


Cloud Days Tokyo 2012
クラウド時代の企業インフラとユーザー環境の姿

ヴイエムウェア


Cloud Days Osaka 2012
クラウドでIT維新を〜ビジネスを加速させるベストプラクティス

アマゾン データ サービス ジャパン

情報システム

ニュース

ITpro

オフィス文書からテキストを抽出するフィルタ・プログラムの新版,アンテナハウスが出荷

2007/03/28
日川 佳三=ITpro

 アンテナハウスは,ExcelやWordなどのオフィス・ソフトが生成する文書ファイルからテキスト文字列を抽出するソフトウエア部品の新版「TextPorterV4.2サーバ版」を,2007年3月19日に出荷した。価格は,同ソフトを組み込んだ業務システムを実運用する際などに必要な通常版が1CPU当たり50万円(税別),開発用ライセンスが1CPU当たり20万円(税別)。

 TextPorterは,オフィス・ソフトが生成する文書ファイルからテキスト文字列を抽出するフィルタ・プログラム。指定した文字列を含む文書ファイルを検索するアプリケーションなど,テキスト文字列を利用した業務システムを構築しやすくなる。コマンド・ラインから起動して標準入出力を扱う使い方のほか,C言語の関数ライブラリやJavaクラス・ライブラリ,Perl関数ライブラリ,COMコンポーネントなどの実装形態で提供する。

 文書ファイルのバイナリ・データの中に存在するテキスト・コードを機械的に抽出するのではなく,文書ファイルのフォーマット形式を理解した上で,文書ファイルを解釈して読み取り,テキストを抽出する。文書ファイルのプロパティ情報やページ情報も理解するため,どのオフィス・ソフトの何ページ目に記述したテキストなのか,といった情報を利用できる。埋め込みOLEオプジェクトは3階層まで抽出可能である。

 新版では,扱える文書フォーマットを増やした。新たに,Office 2007(Word 2007,Excel 2007,PowerPoint 2007),Acrobat 8(PDF 1.7),一太郎2007の3種類の文書ファイルからテキストを抽出できるようにした。なお,従来版から扱えた文書フォーマットは,Word Ver6以降,Excel Ver4以降,PowerPoint 95以降,RTF,Works 2000,Visio V4以降,OutLook 2000以降,OutLook Express 6,一太郎 Ver5以降,Adobe PageMaker 6.0以降,Acrobat PDF 1.2以降,富士通のOASYS V3以降,Lotus1-2-3 R5など。

この記事に対するfacebookコメント

nikkeibpITpro

読みましたか? 〜 未読記事をご紹介