リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。

 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。

DWHの構築にHadoopとHiveを採用--リクルート

写真1●リクルート MIT システム基盤推進室 インフラソリューショングループ・新規開拓ユニット スペシャリストの石川信行 氏
写真1●リクルート MIT システム基盤推進室 インフラソリューショングループ・新規開拓ユニット スペシャリストの石川信行 氏
[画像のクリックで拡大表示]

 リクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析するDWHを、Hadoopと「Hive」を使って構築した。HiveはSQLに似た構文を記述することで、Hadoopのプログラミングモデルである「MapReduce」に対応したプログラムを生成するツールである。

 講演を行った同社MITシステム基盤推進室の石川信行氏(写真1)は、「従来は、1カ月分のログデータをRDBを使って分析していた。1年分のログデータを分析するのは、RDBではデータ量的に難しい。そこでHadoopを導入した」と語る。HadoopベースのDWHを使って、Webサイトにおける広告宣伝効果を測定したり、全サイトをまたいだユーザーの行動解析を行ったりしている。

 リクルートはログ解析用DWHの構築に当たって、Hadoopの他に、リレーショナルデータベース(RDB)を使ったDWH製品など、合計4種類のDWH製品の性能を検証した。石川氏は、「Hadoopには、RDBと比べてアプリケーション開発が難しいという弱点がある。その一方でHadoopには、大容量データの処理で高い性能を発揮できること、拡張性や可用性に優れていること、インフラ運用の手間がかからないことといった利点がある。これらを総合的に判断して、Hadoopの採用を決定した」と語る。

 Hadoopは、大容量データを複数のPCサーバーに分散保存し、データに対する処理を各ノードで実行して、結果を集約するというミドルウエアだ。クラスター内のPCサーバー台数に比例して、処理能力が向上する。また、データは常に3つ複製を作って異なるノードに分散保存しているため、サーバーが故障した場合でも処理を継続できる。故障したサーバーは交換するだけでよい。リクルートは、Hadoopのこれら利点を評価した。

 石川氏によれば、「MapReduceのプログラムを開発するのは非常に難しい」ため、同社ではHiveの使用を推奨している。さらに現在は、GUIツールを使ってHadoop用のプログラムを開発できる「Karmasphere Studio」や、Hadoopを使ってOLAP(オンライン分析処理)などができるようになるBIツール「Pentaho」などの導入が可能か、検討を始めている。

 同社では今後、オンライン分析にHadoopを適用できないか検証を進める。データストアとしては、Hadoop標準のHDFS(Hadoop Distributed File System)を使うのではなく、キー・バリュー型データストアである「Tokyo Tyrant」や「Cassandra」、Hadoopベースの分散データベースである「Hbase」などを使うことを検討している。