図●halookでDataNode間の偏りを表示した様子
図●halookでDataNode間の偏りを表示した様子
[画像のクリックで拡大表示]

 Acroquest Technologyは2012年11月9日、分散処理フレームワークのHadoopや、Hadoop上に構築する分散データベースのHBaseの内部動作を可視化するソフトウエア「halook」をオープンソースソフトウエア(OSS)として公開すると発表した。halookでは、WebブラウザからHadoopで構築したクラスター間のデータの偏りや、クラスターのタスクなどを確認できる。

 Hadoopの分散ファイルシステムでは、クラスターを構成するDataNodeにデータを分散させて保存する。各クラスター内に保持しているデータは、できるだけ均等に保つことが望ましい。各クラスターに保存されているデータ量に偏りがあると、データ量が大きいクラスターに処理が集中してしまい、サーバーの台数を増やしても処理能力がスケールしない可能性があるためだ。

 halookの「HDFSDataDistributionView」を利用すれば、WebブラウザからDataNode間のデータの偏り具合をのように可視化できるため、データ量が不均等になる前に、データを手動で移したり、プログラムを変更したりといった対処が可能だ。さらに、現在の状態だけではなく、過去の利用状況もさかのぼって確認できるため、利用状況の推移を把握して、今後の対策に生かすこともできる。

 また、halookでは各クラスターのタスクの動作状況も確認できる。タスクの動作状況を把握するには、手間のかかるログ解析が必要だった。しかし、halookの「MapReduceTaskChartView」を利用すると、タスクが正しく並列化されているか、負荷分散は正しく行われているか、といったことをWebブラウザ上のグラフから確認できる。

[発表資料へ]