写真1●ICA V3.0の画面例。検索に使ったキーワードと意味上関連の深い語句を表示している
写真1●ICA V3.0の画面例。検索に使ったキーワードと意味上関連の深い語句を表示している
[画像のクリックで拡大表示]
写真2●ICA V3.0の評判分析機能の画面例。緑色の下線部が良い評判が書かれていると推定される箇所
写真2●ICA V3.0の評判分析機能の画面例。緑色の下線部が良い評判が書かれていると推定される箇所
[画像のクリックで拡大表示]

 日本IBMは2012年6月7日、データ分析ソフト「IBM Content Analytics with Enterprise Search(ICA) V3.0」を発表した。

 最大の特徴は、大量の非構造化データを分析・検索対象にできること。同社のHadoopソフトウエアである「IBM InfoSphere BigInsights」との連携機能を備える。BigInsightsをデータ処理エンジンに使うことで、「数億件のデータを一括分析できる」(日本IBMのヴィヴェッグ・マハジャン専務執行役員ソフトウェア事業担当)。

 データの量で言えば1ペタバイト規模という。同社はTwitterで日本語でつぶやかれる件数が1日約2600万件という調査データを引用し、ICAとBigInsightsの組み合わせによって日本語による1~2週間分の全つぶやきを一度に分析できるとアピールする。日本IBMの山田桂子ソフトウェア事業インダストリー・ソリューションズ事業部ECM営業部長は「ICA V3.0では1ペタバイト規模の大量データが分析できることから、(顧客企業から)すでに数件の問い合わせがある」と話す。

 ICAの前バージョンである「V2」では、一括分析できるデータの量は数千万件だったという。BigInsightsは別途用意する必要がある。

 ICA V3.0ではほかにも、検索と分析の機能を統合的に利用できるようにした。V2.0では別製品だった検索ソフト「OmniFind」をICAに組み込んだ。これにより、検索結果にリストアップされた文章群から意味上関係が深いと思われる語句を見いだし、その語句を使って再検索をかけるなど、分析作業の効率アップがはかれるようになった。

 例えば、検索キーワードで使った語句について、その意味の抽象度を変えながら検索することが可能になった。例えば医療分野などで、ある医薬品と副作用の症例を調べる際に、同種の薬剤で同じような症例があるかどうかも併せて調査する、といったことがやりやすくなるという。

 また、ある特定の語句で文書を検索した際に、検索された文書群から関わりが強いと推定される語句も抽出して提示する。記者会見中に実施したICA V3.0のデモでは、IBM社内のコミュニティサイトの書き込みを「career」で検索したところ、「mentor」や「certification」などが提示された(写真1)。mentorはIBMの社内制度で、先輩社員が後輩社員の求めに応じて助言をする仕組みのことを指している。一方のcertificationはIBMの社内スキル認定制度を示す言葉である。

 語句から評判の善し悪しを分析する機能も追加した。検索結果の文中で、良い評判が書かれていると推定される箇所と、逆に悪い評判が書かれていると推定される箇所を色分け表示できる(写真2)。

 ICAは複数言語に対応する。前バージョンでは日本語、英語、中国語など11言語だったが、V3.0でロシア語、チェコ語、ヘブライ語、ポーランド語の4言語を追加。合計15言語の文章を検索・分析できるようになった。

 ICA V3.0のライセンス料金は801万円(税別)から。