米SRA OSS社は2013年1月9日、Microsoft Office文書からテキストデータを抽出するソフトウエア部品「libTextConv」の新版「V3」の販売を始めた。Microsoft Visioファイルへの対応、RARアーカイブ形式の展開などの機能を追加。オフィス文書を扱うシステム開発やサーバーソフトでの採用を見込む。
libTextConvは、オフィス文書やPDFなどの各種ファイルからテキストを抽出するツール。C言語用ライブラリ、コマンドラインツール、および同ライブラリをPHPのWebアプリから呼び出す拡張モジュールで構成する。V3では、PHP拡張モジュールにアーカイブファイルを扱うAPIを追加した。
対応ファイル形式は、Microsoft Office 97~2003/2007/2010(Word、Excel、PowerPoint)、Microsoft Visio(2000以降)、OpenOffice.org 1.x、2.x/3.x、一太郎(バージョン8以降)、ZIP/LZH/LAR/TARといった各種アーカイブなど(表)。
対応OSは、Red Hat Enterprise Linux 3/4/5/6、SUSE Linux Enterprise Server 10、openSUSE 11.0、Solaris 9/10、Windows XP/Vista/7。
ライセンスはサーバー単位で、価格は31万5000円から。15万7500円の開発用ライセンスも用意する。製品への組み込みは個別見積もり。
ファイル形式 | 拡張子 |
---|---|
Microsoft Office 97~2003 | .doc、.xls、.ppt |
Microsoft Office 2007/2010 | .docx、.xlsx、.pptx |
OpenOffice.org 2.x/3.x | .odt、.ods、.odp |
OpenOffice.org 1.x | .sxw、.sxc、.sxi |
Adobe PDF | |
Microsoft Visio(2000以降) | .vsd |
Lotus 1-2-3 | .123、.wj1/2/3/4、.wk1/2/3/4、.wks |
Lotus Word Pro | .lwp |
一太郎(バージョン8以降) | .jtd |
各種アーカイブ | .zip、.tar、.tar.gz、.gz、.lzh、.rar、.tar.bz2 |
その他 | .rtf、.html、.htm、.sgml、.xml |