日本IBMは2011年5月23日、大規模データ向けの処理ソフト「IBM InfoSphere BigInsights Enterprise Edition V1.1」を5月27日に出荷すると発表した。BigInsightsは、オープンソースの分散バッチ処理ソフト「Hadoop」をベースに、IBMが使い勝手を高めた製品。同時に、大量データをリアルタイムに処理するソフトの新版「IBM InfoSphere Streams V2.0」を5月24日に出荷開始すると発表した。

 Hadoopは、キーバリュー型のデータストアで、大量データを高速処理することに向く。BigInsightsは、Pig(プログラミング言語)やHive(データ要約)といったオープンソースのユーティリティーをHadoopと一緒に提供することで、使い勝手を高める。IBM独自のユーティリティー機能も加えた。マネージメントコンソールや、InfoSphere WarehouseやDB2とのデータ統合を支援する機能、LDAP認証などのセキュリティ機能などである。

 Hadoopによる分散処理では、MapReduceと呼ぶ処理モデルを使い、Hadoop分散ファイルシステム(HDFS)上のデータを扱うことが一般的だ。BigInsightsでは、データ分析処理を記述するための独自のHadoop用操作言語「Jaql」を提供する。「HDFSではデータ管理の信頼性が低いという声に応えるため、もっと信頼性が高いファイルシステムの採用も視野に入れている」(日本IBM インフォメーション・マネジメント事業部の中林紀彦マーケティング・マネージャー)という。

 BigInsights Enterprise Edition V1.1の価格は、285万円(1テラバイト当たり)~。IBM独自のユーティリティー機能を省いた、BigInsights Basic Edition V1.1は、Webからダウンロードして無償利用が可能である。

 Streamsは、データを蓄積せずに処理することで、リアルタイムの応答性を実現するための製品。ストリーミングコンピューティングや、CEP(複合イベント処理)と呼ばれる領域をカバーする。V2.0では、従来版に比べて処理速度を引き上げた。「プログラミング言語の構造を改善したことなどにより、従来より3.5倍程度速くなった」(中林マネージャー)。Streams V2.0の価格は、464万円(1コア当たり)~、開発者ライセンスは38万3100円(許可ユーザー当たり)。

 BigInsightsおよびStreamsは、同社の大規模データ活用ソリューションの中核を担う。同社では、急増するデータを“Big data”と呼び、その活用に力を入れる。Big dataの特性を同社は、多様性(Variety)、頻度(Velocity)、Volume(量)の三軸でとらえる。日本IBMの俵雄一インフォメーション・マネジメント事業部長は「大規模データというと、データのボリュームに目が向きがちだが、その中身が重要。構造化されたデータに非構造化データを組み合わせるなどデータは多様化している。データの発生頻度も従来より高くなってきた。今後のデータ活用には、こうした特性への理解が欠かせない」と話す。