皆さんは「Hadoop」をご存じでしょうか。Googleの大規模分散処理技術を模したオープンソースソフトウエアで、安価なPCサーバーを連ねて数テラ~数ペタバイトのデータを解析できます。既に米国では、米Visaや米JPMorgan Chaseのような大手金融機関もHadoopを大規模に利用し始めています。2009年11月には日本にも「Hadoopユーザー会」が発足しました。

 記者は2009年11月16日に開催された「Hadoop Conference Japan 2009」で、「データセンター視点で考えてみるHadoop」という簡単なスピーチをさせてもらいました。その内容が意外に好評だったので、本欄でスピーチを「誌面再現」してみたいと思います。なお、同イベントの他の発表については、記者が執筆した記事をご覧ください(関連記事:分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる)。

データセンター視点で考えてみるHadoop

[画像のクリックで拡大表示]

 Hadoopは、そのベースとなった「MapReduce」や「Google File System」の開発元がGoogleということもあり、当初はWeb系の企業を中心としてログの解析などに使用されていました。ところが最近では、米国の大手金融機関がデータマイニング用途などにもHadoopを使用し始めています。

[画像のクリックで拡大表示]

 2009年10月には、米国ニューヨークで「Hadoop World NY 2009」が開催され、米Yahoo!や米Facebookのほか、VisaやJPMorgan Chase、中国移動通信(China Mobile)などが自社の活用事例を発表しました。例えばVisaは、不正なカード利用がないか各トランザクションの危険度を分析するのに、Hadoopを使用しているそうです。イベントのレポートは、米国に駐在するネットワンシステムズの柳下幹生氏が日経コンピュータ2009年11月25日号に寄稿してくださったので、ぜひご覧ください。

[画像のクリックで拡大表示]

 私のスピーチでは、Yahoo!がHadoopのためにどのようなデータセンターを構築したのか紹介しました。Yahoo!は現在、2万5000台以上のPCサーバーを使ってHadoopを運用しています。検索インデックスの作成や、利用者ごとに表示するコンテンツや広告の最適化、電子メールサービスにおけるスパムフィルタの生成に、Hadoopを使っているそうです。2009年10月時点で、ストレージ容量は82ペタバイトに達するとされています。