|
必聴講座ご紹介 Cloud Days Tokyo 2012 エムオーテックス Cloud Days Tokyo 2012 ヴイエムウェア Cloud Days Osaka 2012 アマゾン データ サービス ジャパン |
オフィス文書からテキストを抽出するフィルタ・プログラムの新版,アンテナハウスが出荷アンテナハウスは,ExcelやWordなどのオフィス・ソフトが生成する文書ファイルからテキスト文字列を抽出するソフトウエア部品の新版「TextPorterV4.2サーバ版」を,2007年3月19日に出荷した。価格は,同ソフトを組み込んだ業務システムを実運用する際などに必要な通常版が1CPU当たり50万円(税別),開発用ライセンスが1CPU当たり20万円(税別)。 TextPorterは,オフィス・ソフトが生成する文書ファイルからテキスト文字列を抽出するフィルタ・プログラム。指定した文字列を含む文書ファイルを検索するアプリケーションなど,テキスト文字列を利用した業務システムを構築しやすくなる。コマンド・ラインから起動して標準入出力を扱う使い方のほか,C言語の関数ライブラリやJavaクラス・ライブラリ,Perl関数ライブラリ,COMコンポーネントなどの実装形態で提供する。 文書ファイルのバイナリ・データの中に存在するテキスト・コードを機械的に抽出するのではなく,文書ファイルのフォーマット形式を理解した上で,文書ファイルを解釈して読み取り,テキストを抽出する。文書ファイルのプロパティ情報やページ情報も理解するため,どのオフィス・ソフトの何ページ目に記述したテキストなのか,といった情報を利用できる。埋め込みOLEオプジェクトは3階層まで抽出可能である。 新版では,扱える文書フォーマットを増やした。新たに,Office 2007(Word 2007,Excel 2007,PowerPoint 2007),Acrobat 8(PDF 1.7),一太郎2007の3種類の文書ファイルからテキストを抽出できるようにした。なお,従来版から扱えた文書フォーマットは,Word Ver6以降,Excel Ver4以降,PowerPoint 95以降,RTF,Works 2000,Visio V4以降,OutLook 2000以降,OutLook Express 6,一太郎 Ver5以降,Adobe PageMaker 6.0以降,Acrobat PDF 1.2以降,富士通のOASYS V3以降,Lotus1-2-3 R5など。 最新ニュース記事一覧へ >> |