写真1●クラウデラ創業者のクリストフ・ブシーリヤ氏
写真1●クラウデラ創業者のクリストフ・ブシーリヤ氏
[画像のクリックで拡大表示]
写真2●Hadoopのユーザー企業
写真2●Hadoopのユーザー企業
[画像のクリックで拡大表示]
写真3●HadoopのGUI管理ツール「Cloudera Desktop」
写真3●HadoopのGUI管理ツール「Cloudera Desktop」
[画像のクリックで拡大表示]

 オープンソースの分散処理ソフトウエア「Hadoop」の日本におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天、はてななどが講演した。

 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツールの提供やコンサルティングなどを行っている。

 Hadoop Conference Japan 2009で講演を行ったブシーリヤ氏(写真1)は「Hadoopを一般企業でも使えるように、管理ツールなど充実させている」と語り、グーグル由来の分散処理技術が今、ネット企業だけでなく一般企業にも広まりつつあることをアピールした。ブシーリヤ氏は講演で、米VISAや米JPモルガン・チェース、中国移動通信(チャイナモバイル)などが、大規模データの解析にHadoopを活用している事例を明らかにした(写真2)。

 クラウデラは現在、Hadoopに関連する様々なツールをまとめた「ディストリビューション」を提供している。Hadoopは分散ファイルシステムである「Hadoop Distributed File System」(グーグルのGFSに相当する)と、並列プログラミングモデルである「Hadoop MapReduce」(グーグルのMapReduceに相当)で構成されるが、いずれも管理ツールとしてはコマンドラインしか備えていないため、管理が難しいのが難点である。現在はクラウデラやヤフーなどが、ノードの監視やジョブの管理などをまとめたディストリビューションを提供しており、「新規にHadoopを使い始めるユーザーの75%が、クラウデラのディストリビューションを使うようになった」(ブシーリヤ氏)という。

 Hadoopには現在、ディストリビューション以外にも様々な関連ツールが登場している。例えば米フェースブックは、標準のプログラミング言語であるJavaではなく、SQLに似た独自言語でHadoopに対するデータ操作ができるデータウエアハウス「Hive」を公開している。クラウデラも、リレーショナルデータベース環境にあるデータをHadoop環境に移行するツール「Sqoop」や、Hadoopを運用するノードをGUIで管理できる「Cloudera Desktop」(写真3)を提供している。これらを挙げてブシーリヤ氏は「Hadoopにはエコシステムができあがっている」とアピールした。

 Hadoop Conference Japan 2009にはこのほか、楽天やはてながユーザー企業として登壇した。楽天では現在、14台のPCサーバーでHadoopを運用しており、広告のログ解析や製品のレコメンデーション(消費者が購入した製品を基にお薦めの製品を推薦する仕組み)などのデータ集計に使用している。Hadoopを導入することで、従来解析に26時間かかっていた処理が、4時間に短縮したケースもあるという。

 はてなはWebサーバーのログ解析に、Hadoopを使用している。当初は「Hadoop Streaming」というJava以外の言語でMapReduce処理を実行できるミドルウエアを使い、プログラミング言語としてPerlを使用していた。しかし処理性能などで不満があったため、2009年11月からはプログラミング言語をScalaに切り替えたという。はてな執行役員の田中慎司氏は「Scalaを使うと、Javaと比べて非常に短いコードで求める処理を行える」とScalaのメリットを説明した。

 システムインテグレータの立場として登壇したNTTデータは、経済産業省の実証研究プロジェクトをHadoopで受注したことや、数Pバイト規模のデータをHadoopを使って解析しようとしているユーザー企業が既に存在することなどを明らかにし、日本でもHadoopの導入機運が高まっていることを示した。

 Hadoopのユーザー会は現在、世界各地で生まれており、米国では10月3日にニューヨークで「Hadoop World NY 2009」が開催されたほか、日本のHadoop Conference Japan 2009と同時期に、中国・北京と台湾・台北でもユーザー会イベントが開催されている。