写真1●ITpro EXPO展示会での展示の様子
写真1●ITpro EXPO展示会での展示の様子
[画像のクリックで拡大表示]
写真2●QlikView
写真2●QlikView
[画像のクリックで拡大表示]
写真3●Hadoop、QlikView連携データ活用ソリューションのシステム構成
写真3●Hadoop、QlikView連携データ活用ソリューションのシステム構成
(日立製作所の資料より引用)
[画像のクリックで拡大表示]

 ITpro EXPO AWARD 2011でITmediaエンタープライズ賞に選ばれたのは、日立製作所が参考出典した「Hadoop、QlikView連携データ活用ソリューション」である(写真1)。WebのアクセスログをBI(ビジネスインテリジェンス)ソフトで分析する際に、あらかじめApache Hadoopを使ってデータをコンパクトに集計処理しておくことで、より大量のデータを一度に分析できるようにする。

 ソフトウエアの構成要素は大きく三つある。(a)一つ目は、インメモリー型で動作するBIソフトの「QlikView」(米Qlik Technologiesが開発、写真2)。(b)二つ目は、Webの生ログを集計してQlikViewの分析用データ(CSV)を生成するApache Hadoop。(c)三つ目は、Hadoopの操作や稼働状況を管理する運用管理ソフト「JP-1」、---である。これらを連携させている(写真3)。

 ITpro EXPO 2011の展示ブースでは、日立製作所のブレードサーバー「HA8000-bd」(20台)を用意し、実際にこれらのソフトウエアを連携させてHadoopによるデータ集計の効果をデモンストレーションした。このようにHadoopの応用例を示す展示の背景には、「Hadoopの知名度は高いが、どのような業務で使えるのかがまだ知られていない」(同社)という状況がある。

 デモでは、三台のディスプレイを使ってHadoopの効果をアピール。(1)QlikViewの分析GUI画面、(2)JP-1のジョブ管理/監視画面、(3)Hadoopの監視画面、---である。(3)Hadoopの監視画面は、デモ用に日立製作所が独自に開発したもので、Hadoopクラスタに割り当てた18台のノードの動作状況を「Map処理」と「Reduce処理」などHadoop処理の状態に応じてリアルタイムで可視化してみせた。

すべてのデータをメモリーに乗せて高速に分析する

 今回のHadoop、QlikView連携データ活用ソリューションにおいて、ユーザーが直接触れるソフトが、BIソフトのQlikViewである。分析対象はWebサーバーのアクセスログであり、これらを取り込んでユーザー別や商品別などさまざまな切り口で分析できるようにする。

 QlikViewの特徴は、インメモリーで高速に動作すること。いったんデータをメモリー上に展開しておくことで、データのドリルダウン分析や任意の条件を指定しての分析など、その都度ごとのアドホックなデータ分析を簡単に行えるようにしている。

 ただし、メモリー上にデータを展開するため、データサイズに合わせてメモリーを用意しておく必要がある。従来、QlikViewで大量データを分析する際には、全データの中からサンプルを抽出して分析対象データのサイズを小さくしていた。例えば、ある一定期間のデータだけを取得する、といった具合だ。

 今回、Hadoop連携によって、全データを扱いながらデータサイズを小さくする、という解決策をとった。事前にHadoopを使って集計処理を実行しておくことで、メモリーを増設することなく全データを分析できる。デモでは、600Gバイト程度のWebログデータをHadoopで処理し、数10Mバイトの加工済みデータを生成してみせた。