Hadoop――企業システムでの実力は？

キー分布が偏る場合は性能向上

検証(4)複数ジョブの同時実行

神林飛志、埋金進一

ウルシステムズ

2011.08.26

　最後に12ノードの環境で、複数のHadoopジョブを実行した場合の処理性能について説明する。通常は、1台のサーバー上で複数の処理を同時に実行すると、リソースの競合が発生して性能が低下する。Hadoopで同様の問題が発生するのか調べた。

　検証では、同一のHadoopクラスター上で同一処理内容のHadoopジョブを二つ動作させた。キャッシュの影響を排除するために、各ジョブは別のデータを処理するようにしている。

　結果はキーの分布が一様な場合とべき分布の場合で異なった（図9）。

図9●ジョブの同時実行<br>Hadoopクラスター上で、複数のジョブを同時に動かすと複数のジョブ全体のスループットは向上する。キーがべき分布の場合は、単体で実行した場合に比べて2ジョブを同時実行したときのスループットが54％向上した

図9●ジョブの同時実行

Hadoopクラスター上で、複数のジョブを同時に動かすと複数のジョブ全体のスループットは向上する。キーがべき分布の場合は、単体で実行した場合に比べて2ジョブを同時実行したときのスループットが54％向上した

[画像のクリックで拡大表示]

　キー分布が一様なデータを使いジョブを二つ同時に実行した場合、ジョブを単独で実行した場合と比べて、性能は2％向上しただけだった。

　これに対して、キーをべき分布にしたデータで、検証(3)の対策2を実施していないジョブを二つ同時に実行すると、単独実行の場合に比べて、2ジョブ同時実行の性能が54％向上した。

　理由は図10のように考えられる。キー分布が一様な場合はジョブ1およびジョブ2のMapperとReducerはいずれもフルに全リソースを使う。その結果、各ジョブの処理時間はいずれも約2倍に延び、2ジョブ同時実行の性能は1ジョブ単独実行とほぼ同じになる。

図10●複数ジョブを同時実行した場合にスループットが上がる理由<br>キーの分布に偏りがある場合、特定のReducerのみが動作する状態が発生する。この状態ではリソースを有効活用できるので、二つのジョブを同時実行するときのスループットは、単独実行のそれを上回る

図10●複数ジョブを同時実行した場合にスループットが上がる理由

キーの分布に偏りがある場合、特定のReducerのみが動作する状態が発生する。この状態ではリソースを有効活用できるので、二つのジョブを同時実行するときのスループットは、単独実行のそれを上回る

[画像のクリックで拡大表示]

　一方、キー分布に偏りがあるときは、図8で示したように、特定のReducerのみが動作する状態が生まれる。

　その状態では、Hadoopは二つのジョブを別々のリソースで実行するように調整するため、処理時間は延びない。その結果、2ジョブ同時実行の性能は1ジョブ単独実行より向上する。

　実際のシステムでは、異なる特性のジョブを複数同時に実行するので、キー分布が偏ったときのように、同時実行で全体の性能向上が見込めるだろう。ジョブごとに、リソースを占有するタイミングがずれるためだ。

あなたにお薦め

今日のピックアップ

注目記事

おすすめのセミナー

セミナー一覧

注目のイベント

おすすめの書籍

日経BOOKプラスの新着記事

日経クロステック Special

What's New

【生成AI事例】デジタルで現場をDX化

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ