写真1●EMCジャパンのEMC Greenplum HD
写真1●EMCジャパンのEMC Greenplum HD
[画像のクリックで拡大表示]
写真2●Greenplum HDの管理画面。クラスタ全体を通して、ノードごとのリソース消費量などを統合管理できる
写真2●Greenplum HDの管理画面。クラスタ全体を通して、ノードごとのリソース消費量などを統合管理できる
[画像のクリックで拡大表示]

 ITpro EXPO AWARD 2011で優秀賞に輝いたのは、EMCジャパンのビッグデータ処理ミドルウエア「EMC Greenplum HD」である。OSS(オープンソース)の「Apache Hadoop」とのアプリケーション開発互換性を保ちつつ、同社が一から企業向けに作り直し、性能、可用性、使い勝手を向上させている。

 国内の第一号ユーザーはリクルート(Webのログ解析などに利用)。2011年内は、ユーザー数社に対して限定的にGreenplum HDを導入する。2012年の年明け以降、広く一般への販売を開始する。料金はサブスクリプション(購読)形式とし、データ処理ノード1台あたり年額50万円前後としている。

 ITpro EXPO 2011の展示ブース(写真1)では、実機(3台のデスクトップPC)を用いたデモンストレーションやシアター上映を通し、Apahce Hadoopと比べたGreenplum HDの利点を強調した。デモでは、実際にジョブを投入して集計処理をさせながら、クラスタ全体のリソース消費状態を管理画面(写真2)上で可視化してみせた。シアター上映では、ノードを停止させた際に他のノードが処理を引き継いでクラスタ全体として処理を継続できることを紹介した。

OSS「Apache Hadoop」を企業向けにC/C++で作り直した

写真3●Apache HadoopとGreenplum HDの処理性能を比較したベンチマーク結果。Greenplum HDの方が高速に動作する
写真3●Apache HadoopとGreenplum HDの処理性能を比較したベンチマーク結果。Greenplum HDの方が高速に動作する
[画像のクリックで拡大表示]

 Greenplum HDは、Apache Hadoopとの互換性を保ちつつ企業向けに作り直した、企業向けのHadoopである。Hadoopと比べて、性能、可用性、使い勝手を、それぞれ高めている。そもそもHadoopとは、MapReduceと呼ぶシンプルな分散処理手法によって、複数のコンピュータを使ってデータ集計処理を高速に実行するミドルウエア。Webのログ分析や大量データに対するバッチ処理などに使われる。

 性能面の改善として、ストレージI/Oまわりの実装を一から作り直した。Java言語で書かれている処理をC/C++で実装したことで、Hadoop比で2~5倍ほど処理性能が高まっているという。EMCが実施したベンチマークでは、HadoopではCPU使用率は3割ほどに留まるが、Greenplum HDでは、CPU使用率が8~9割ほどに向上する(写真3)。

 Map処理とReduce処理の間に位置するシャッフル処理(適切なノードへとデータを転送する処理)で用いるノード間のデータ転送手順も作り変えた。HadoopがプロトコルとしてHTTPを用いるのに対し、Greenplum HDでは、より低レベルなRPC(Remote Procedure Call)を使う。