米SRA OSS社は2013年1月9日、Microsoft Office文書からテキストデータを抽出するソフトウエア部品「libTextConv」の新版「V3」の販売を始めた。Microsoft Visioファイルへの対応、RARアーカイブ形式の展開などの機能を追加。オフィス文書を扱うシステム開発やサーバーソフトでの採用を見込む。

 libTextConvは、オフィス文書やPDFなどの各種ファイルからテキストを抽出するツール。C言語用ライブラリ、コマンドラインツール、および同ライブラリをPHPのWebアプリから呼び出す拡張モジュールで構成する。V3では、PHP拡張モジュールにアーカイブファイルを扱うAPIを追加した。

 対応ファイル形式は、Microsoft Office 97~2003/2007/2010(Word、Excel、PowerPoint)、Microsoft Visio(2000以降)、OpenOffice.org 1.x、2.x/3.x、一太郎(バージョン8以降)、ZIP/LZH/LAR/TARといった各種アーカイブなど()。

 対応OSは、Red Hat Enterprise Linux 3/4/5/6、SUSE Linux Enterprise Server 10、openSUSE 11.0、Solaris 9/10、Windows XP/Vista/7。

 ライセンスはサーバー単位で、価格は31万5000円から。15万7500円の開発用ライセンスも用意する。製品への組み込みは個別見積もり。

表1●libTextConv V3の対応ファイル形式
ファイル形式拡張子
Microsoft Office 97~2003.doc、.xls、.ppt
Microsoft Office 2007/2010.docx、.xlsx、.pptx
OpenOffice.org 2.x/3.x.odt、.ods、.odp
OpenOffice.org 1.x.sxw、.sxc、.sxi
Adobe PDF.pdf
Microsoft Visio(2000以降).vsd
Lotus 1-2-3.123、.wj1/2/3/4、.wk1/2/3/4、.wks
Lotus Word Pro.lwp
一太郎(バージョン8以降).jtd
各種アーカイブ.zip、.tar、.tar.gz、.gz、.lzh、.rar、.tar.bz2
その他.rtf、.html、.htm、.sgml、.xml