ハドゥープ(Apache Hadoop)は大量のデータを複数のコンピューターで分散処理するためのオープンソースソフトウエアの名称。データ分析専用機に比べ、安価にシステムを構築できる。

 ソーシャル・ネットワーキング・サービス(SNS)への投稿やGPS(全地球測位システム)で収集した位置情報、無線ICタグが生み出すセンサーデータ、通販サイトの購買履歴--。IT(情報技術)の進化で、企業が得られる情報はどんどん増えています。管理負担は増す一方ですが、ビッグデータに眠る“宝”を掘り起こすチャンスだともいえます。

 とはいえ、大量のデータ分析に必要な専用機は高価で、投資対効果に見合わないなどの理由から、企業は現状ではビッグデータをビジネス上の意思決定に十分に生かし切れていません。日本IBMは国内のマーケティング担当役員に対する調査で、ビッグデータへの準備が不十分と回答した割合が80%を超えたという結果を得ています。

 この問題を解消すべく、新たな動きが活発になってきました。大量のデータを複数のコンピューターで分散処理するためのソフト、Apache Hadoop(ハドゥープ)の登場です。高速処理が可能なHadoopはオープンソースなので、大型の専用機に比べてはるかに安くシステムを構築できます。IT企業も続々とHadoop対応製品を投入しています。

【効果】割り切りの発想

 Hadoopは、企業に広く普及しているリレーショナルデータベース管理システム(RDBMS)とは構造が異なり、高速処理を実現するために個々のデータ群を複数のコンピューターに分散配置するうえ、割り切った仕組みを採用しているのが特徴です。

 例えば、ある人がデータを更新する場面を考えてみましょう。RDBMSでは他の人による操作を一切排除して、データの整合性を保とうとします。一方でHadoopは排除しません。他の人による操作を拒否するならば、データを置く複数のコンピューターに対する操作を全て禁じなければならないからです。これでは処理性能が上がりません。

 Hadoopは大量のデータを素早く処理することを前提に、あえて「データが他のユーザーによって更新されることはまれ」という楽観的な見方を採っているわけです。それでも大量のデータからおおまかな傾向を知りたい場合には十分活用できます。

【事例】2年分の履歴を1日で分析

 リクルートは飲食店などを紹介する「ホットペッパー」や中古車紹介の「カーセンサー」でHadoopを使ったデータ分析システムを導入しています。2011年4月から試験導入を始めており、ホットペッパーでは過去2年の利用履歴を1日で分析できる成果を得ています。これまではデータ量の多さから過去2週間分の履歴分析が限界だったので、劇的に改善できたわけです。

関連記事