事例以外に「Hadoop World NYC 2011」で注目を集めたキーワードは、「次世代Hadoop」「エコシステム」「HBase」「既存DWHとの連携」などである。

スケーラビリティーの強化続く

写真●米クラウデラ チーフアーキテクト、ダグ・カッティング氏の講演会場
写真●米クラウデラのダグ・カッティング氏
[画像のクリックで拡大表示]

 次世代Hadoopはアーキテクチャーを改良し、より高いスケーラビリティー、信頼性、機能を実現する見込みである。例えば、名前空間とブロックストレージの管理を分離してスケーラビリティーを高める「HDFSフェデレーション」、マスターサーバーの可用性を向上させる「NameNode HA」、MPI(メッセージ・パッシング・インタフェース)などの分散処理インタフェースを利用できて1万台までスケールアウトが可能な「MapReduce 2.0」などを備える。これらの機能は、バージョン0.23に搭載する。いずれエンタープライズ領域で採用できるレベルに到達するだろう。

「Hadoop開発は分裂しない」

 Hadoopの生みの親であり、Hadoopの開発をホストする米アパッチソフトウエア財団のボードメンバーでもあるダグ・カッティング氏は、「次世代Hadoopの開発に向けたベンダー間の連携は、今まで以上に強力である」とし、エコシステムの発展を強調した(写真)。

図●Hadoop関連の業界地図
図●Hadoop関連の業界地図
[画像のクリックで拡大表示]

 カッティング氏がHadoop開発の多様性や透明性を力説する背景には、「Hadoopの開発が分裂するのではないか」という不安の声が強まっていることがある。特に、開発の主要メンバーを抱えるクラウデラと米ホートンワークスがそれぞれサポートサービスを提供していることが、その懸念を強めている。

 カッティング氏は、「Hadoopがビッグデータを分散処理するための中核(Linuxにおけるカーネルのような存在)になりつつあり、周辺のツールが発展していくだろう」と展望を語った。さらに、多様な周辺ツールを統合したいとするニーズが強まっており、それに応えてOSSのプロジェクト「BigTop」が既に立ち上がっていることを紹介した。

 BigTopはHadoopと周辺ツールを含めたエコシステムをパッケージングするものである。Linux/OSSの開発経緯に詳しい方なら、「Red Hat Enterprise LinuxにおけるFedoraのような存在」と考えれば理解しやすいだろう。いわば、コミュニティー主体で実現するHadoopディストリビューションだ。カッティング氏は、クラウデラが提供するディストリビューションがBigTopをベースとすることも強調していた。

エコシステムの広がりを実感

 HBaseに関する話題を扱うセッションは10に上った。本格利用に向けてチャレンジが進んでいる。前述したイーベイのCassiniに加えて、フェイスブックのメッセージシステム「Titan」や、地図/交通情報を扱うサービス「NAVTEQ」など多くの例が示された。Titanでは、1秒当たり5万件のインスタントメッセージ処理にHBaseを利用する。

 昨年に引き続き、「Teradata」「Netezza」「Oracle Exadata」といった商用DWH製品との連携も多数披露された。コネクターなどの連携ツールは、通常は後発ソフトウエア側が用意するものだが、Hadoopでは既存のDWH製品ベンダーなどが提供している。各社にとって、Hadoopとの連携が重要であることが分かる。

 今回のカンファレンスは全体として、HadoopがOSSや商用製品も含めたさらに大きなエコシステムを形成し、ますます成長していくことを参加者に強く印象づけた。


濱野 賢一朗(はまの けんいちろう)
NTTデータ 基盤システム事業本部
シニアエキスパート
1998年ごろよりLinux/OSS分野に継続的に取り組み、最近ではHadoopの導入や浸透に向けた活動に力を入れている。日本Hadoopユーザー会の運営にも関わっており、国内でのイベントや勉強会も主導する。