米IBM，非構造化データを分析する技術をオープンソース化

早坂利之

2005.08.09

　米IBMは，文書や構造化されていないコンテンツ・ソース内のテキスト処理を向上させる技術「Unstructured Information Management Architecture（UIMA）」をオープンソース化する計画を米国時間8月8日に発表した。同技術は，非構造化データに含まれるテキストを分析して，潜在的な意味，関係，関連のある事実の発見を狙うもの。

　UIMAは，オンライン技術リソース・ネットワークのOpen Source Technology Group（OSTG）が運営するオープンソース開発サイトのSourceForgeを通じて2005年末までに公開される予定。

　同社によれば，企業内やインターネット上には，文書，画像，コメント，メモ，電子メールや，ビデオ，オーディオといったリッチメディアなど，構造化されていない情報が急増している。しかし，これらの異なる形態のデータを検索する技術は存在していない。

　UIMAは，IBM社の研究所と米国防省の国防高等研究事業局（DARPA）が4年前から共同で研究開発を進めてきた技術。標準的なインターフェイスを採用したオープンソースのフレームワークであり，非構造化データの分析機能を異なるベンダーが提供する業務アプリケーションに組み込める。また，新しい再利用可能な分析ソフトウエア・コンポーネントの作成を促進するツールも提供する。

　UIMAフレームワークは，すでに「IBM WebSphere Information Integrator OmniFind Edition」，「IBM WebSphere Portal Server」，「Lotus Work Place」といったIBM社製品に組み込まれている。

　UIMAフレームワークは，現在同社の技術情報サイト「IBM AlphaWorks」から無償でダウンロードすることができる。

［発表資料へ］

この記事の目次へ戻る