オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」を利用する企業が相次いでいる。2011年11月に米国で開催されたカンファレンス「Hadoop World NYC」では、米JPモルガン・チェースなどの最新事例が登場した。前編では本会議で明らかにされた活用動向を紹介し、後編では主にベンダー側の動向を報告する。

写真1●Hadoop World NYC 2011の会場風景
写真1●Hadoop World NYC 2011の会場風景
[画像のクリックで拡大表示]

 2011年11月8日から2日間にわたり、「Hadoop World NYC 2011」が米国ニューヨークで開催された。3回めの開催となる今回は、27カ国から1400人を超えるITマネジャーや開発者などが集まった(写真1)。

 Hadoop Worldは東海岸で開催されるだけあってビジネス色が強く、最新事例や提携の発表が多い(表1)。主催は、Hadoop専業であり、Hadoopの生みの親ダグ・カッティング氏が所属する米クラウデラ。今回のスポンサーには、Hadoop関連ベンダーだけでなく、ヒューレット・パッカード(HP)、デル、ネットアップ、シスコ、オラクルといった大手米国ベンダーが加わった。

表1●Hadoop World NYC 2011で発表された主な事例
表1●Hadoop World NYC 2011で発表された主な事例
[画像のクリックで拡大表示]

 Hadoopは、一般的なPCサーバー複数台で分散システムを構成し、大規模データを蓄積・処理できるソフトウエアだ。大規模データを分散して格納する「HDFS(Hadoop分散ファイルシステム)と、データを分散配置したまま分散処理するフレームワーク「MapReduce」で構成される。また、「Hadoopエコシステム」といわれる周辺のOSSも充実してきており、リアルタイムに動作する分散データベース「HBase」、RDB(リレーショナルデータベース)とのデータ連携ツール「Sqoop」、SQLライクなデータ操作を実現する「Hive」などに関する発表も相次いだ。

 今回のカンファレンスは、各企業の事業内容に応じて、具体的にどのようなデータを分析し、ビジネスに貢献しようとしているかを具体的に語る発表が前回よりも増えた。2010年まではクラスタ規模、データ量、処理時間を競うような発表が多かったが、Hadoop活用は経営・業務のサポートへと着実に歩み出している。

 前編の今回はまず活用動向に関する発表内容を紹介し、後編では次世代Hadoopやベンダーの動きなど技術開発面の話題を紹介する。