12ノードまでほぼ比例して向上

検証(1)ノード数と性能

神林飛志、埋金進一

ウルシステムズ

2011.08.23

　ここでは（b）仕入データ更新を行うMapReduce処理1が、どこまでスケールアウトするかを調べた。100万件または1000万件のデータを使い、ノード数を変えて性能を測定している。

　結果を図3に示す。データが1000万件の場合、性能はノード数にほぼ比例して増加した。12ノードのときの性能は7万9967件/秒である。1ノード当たりの性能は約7000件/秒でノード数が変化してもほぼ一定だった。

図3●Hadoopの処理性

スレーブノード数を変化させた場合、100万件のデータの場合はノード数を増加させてもスループットがわずかしか向上しなかったが、1000万件のデータの場合はノード数にほぼ比例してスループットが向上した

[画像のクリックで拡大表示]

　12ノードの場合の性能は、処理時間にすると2分5秒である。実際にはこれにインポートなどの処理時間がかかるが、数分で終わるだろう。筆者らが開発に携わったRDBMSの実システムでは、約100万件の仕入データの買掛計上処理に約1時間を要していた。それに比べると100倍近い性能になる。

　もちろん、検証環境では「実データより性能が得られやすい分布のデータを使用した」「検証用のプログラムは実システムと比べると処理が簡略化されている」などの違いはあるが、ケタ違いの性能が出たことは確かだ。

　また、分散処理システムの中には数ノード程度で性能が頭打ちになるものもあるが、Hadoopは10ノード以上でも性能が向上し、頭打ちになる傾向は全くなかった。

　一方、データ量が100万件の場合はノード数を増やしても、性能がわずかしか向上しなかった。12ノードのときの性能は1万5697件/秒である。

　原因は、テストプログラムを格納したJARファイルの各スレーブノードへのコピー、各ノードでのJava VMの起動、ジョブ自体の初期化といったオーバーヘッドが、1000万件のテストよりも相対的に大きいためと考えられる。

なぜデータ量多いと性能向上するか

　では、データ量が1000万件の場合、なぜノード数にほぼ比例するような性能向上が実現するのだろうか。RDBMSとの比較によって説明しよう。

　RDBMSのシステムで特に性能を考慮せずにバッチを作ると、「必要なデータを取り出して、演算処理を実行し、結果を書き戻す」という一連の処理をデータ件数だけ繰り返すものになりがちだ。これをあまり工夫せずに実行すると、ディスクI/Oなど計算以外の処理に大きなリソースが割かれる。

　一方、Hadoopでは「必要なデータを一括して呼び出し、演算を並列分散処理で実行した後、結果を一括して書き戻す」という処理が基本である。

　誤解を恐れずに言えば、RDBMSのシステムも、オーバーヘッドを減らすように工夫すれば性能は向上する。RDBMSの熟練者から見ると「Hadoopが速いのは、比較したRDBMSのプログラムに問題があるため」にすぎない。

　しかし、RDBMSのプログラムで性能を向上させるには、エンジニアに相当な経験と能力が要求される。

　それに対してHadoopでは、バッチ処理で良好な性能を得るための仕組みを活用して、エンジニアが分散処理プログラムを作成できる利点がある。

なぜデータ量多いと性能向上するか

あなたにお薦め

今日のピックアップ

NECが受注したe-Govのガバクラ移行が大幅遅延、構築手法の途中変更が影響か

生成AIを悪用して拡散するワームが登場する恐れ、セキュリティー研究者が警鐘

Javaはなぜかっこ悪いと思われているのか、ChatGPTと共に原因を探ってみた

PayPayと三井住友カードが取引履歴で資金繰り支援、加盟店取り込みへ高まる熱

有名人になりすまして投資広告を掲載、SNSで接触してみた結果

「四重苦」で伸び悩む日本市場、なぜ海外スマホメーカーが開拓に本腰を入れるのか

IIJ公式サイトのPVがある日突然13倍に、バズったわけでも炎上したわけでもない裏側

JavaScriptの文末のセミコロン、付けない場合はいったい何が起こるのか

ミッドレンジスマホのお薦めランキング、「値下げ」でコスパに変化

M3搭載「MacBook Air」とM2搭載モデルを比較、外付けディスプレー2台接続も試す

画面デザインが激変したAcrobat Reader、慣れるまでは旧UIとの併用も

縦長のWebページ全体を画像で保存、メニューから選べるEdgeがChromeより便利

注目記事

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

おすすめのセミナー

「仮説立案」実践講座

CIO養成講座 【第35期】

改革リーダーのコミュニケーション術

パワポ資料が見違える「ビジネス図解」4つのセオリー

間違いだらけの設計レビュー

オンライン版「なぜなぜ分析」演習付きセミナー実践編

問題解決のためのデータ分析活用入門

業務改革プロジェクトリーダー養成講座【第16期】

注目のイベント

日経クロステックNEXT 関西 2024

日経ビジネスCEOカウンシル

VUCA時代に勝ち残る戦略的サプライチェーン構築に向けて

人手不足を乗り越える 日本の産業界成長のシナリオ2024

キャリア・オーナーシップが社会を変える

DX Insight 2024 Summer

WOMAN EXPO 2024

デジタル立国ジャパン2024

DIGITAL Foresight 2024 Summer

成長戦略への次の一手、製品・サービス強化に効くDXの本質（仮）

おすすめの書籍

ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く 改革リーダーのコミュニケーション術

もっと絞れる AWSコスト超削減術

優秀な人材が求める３つのこと 退職を前提とした組織運営と人材マネジメント

Web3の未解決問題

ロボット未来予測2033

日経BOOKプラスの新着記事

「お前、もう帰れ！」東大卒の開発者が料亭で叱られた

はじめに：『金利 「時間の価格」の物語』

話題の本 書店別・週間ランキング（2024年4月第3週）

マッキンゼー調査で判明 日本企業のM＆Aに求められる戦略

新社会人が読んでおくべきおすすめのビジネス書 記事まとめ

『「キーエンス思考」×ChatGPT時代の付加価値仕事術』を著者田尻望が熱弁

はじめに：『図解 木造住宅トラブルワースト20＋3 「雨漏り事故」「構造事故」の事例から学ぶ原因と対策』

はじめに：『美術館に行く前3時間で学べる 一気読み西洋美術史』

はじめに：『ジオストラテジクス マンガで読む地政学 世界の紛争・対立・協調がわかる』

東京・吉祥寺 街々書林 旅心を刺激する魅惑の本屋さん

日経クロステック Special

What's New

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ

この機能は会員登録（無料）で使えるようになります

フォロー連載・特集

設定

なぜ生成AI時代にAPI管理が重要か？分断されたデータを自動的にまとめて活用

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力

CIO養成講座【第35期】

人手不足を乗り越える日本の産業界成長のシナリオ2024

ソフトバンクもう一つの顔　成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く　改革リーダーのコミュニケーション術

もっと絞れる　AWSコスト超削減術

優秀な人材が求める３つのこと　退職を前提とした組織運営と人材マネジメント

はじめに：『金利　「時間の価格」の物語』

話題の本　書店別・週間ランキング（2024年4月第3週）

マッキンゼー調査で判明　日本企業のM＆Aに求められる戦略

新社会人が読んでおくべきおすすめのビジネス書　記事まとめ

はじめに：『図解木造住宅トラブルワースト20＋3　「雨漏り事故」「構造事故」の事例から学ぶ原因と対策』

はじめに：『美術館に行く前3時間で学べる　一気読み西洋美術史』

はじめに：『ジオストラテジクス　マンガで読む地政学　世界の紛争・対立・協調がわかる』

東京・吉祥寺　街々書林　旅心を刺激する魅惑の本屋さん