Vol2では、Greenplumが誇る世界最高速のデータローディングを可能とするScatter/Gather Streaming技術について解説します。
世界最高速のデータロード性能
Greenplumは他製品と比べてさまざまな差別化ポイントがありますが、最もわかりやすい ポイントはデータロード性能です。データロード性能は他社製品と比較して、圧倒的に高速です。
図6はGreenplumと、他社の4製品における、1時間当たりにローディングできるデータの量を比較したグラフです。縦軸が1時間当たりでローディングできるデータの量、TB/h、横軸が各製品です。
他製品が5TB、或いは2TBという性能に対して、Greenplumは10TBのデータローディングが可能です。他製品と比較して2倍、または5倍のローディング性能があります。
また、Greenplumも他製品も1ラックから2ラック、3ラックと、ラックを増設し拡張することができます。Greenplumの場合、2ラックにするとセグメントサーバが増えて行き、リニアに性能が向上し、20TG/hのデータローディングが可能になります。対して他製品では性能が頭打ちになり、大きく変わりません。
2ラックでも3ラックでもローディング性能は5TBあるいは2TBのまま変わりません。
Greenplumは、2ラックでは20TB/h、3ラックにすると、30TB/hというように、ローディング性能がリニアに増加します。
リニアに性能を向上させることができることは、特にHadoopを利用しているユーザに非常に好評です。
Hadoopで扱うべきデータがどこまで増えるのか分からない状況で、性能を青天井で向上させることができる仕組みが非常に評価されています。
世界最高速のデータロード性能を実現するGreenplumの
Scatter/Gather Streaming技術 活用例1
Greenplumが他製品と比較して何故これだけの性能差がでるのか? その理由を、Greenplumの主要機能の紹介を通じて説明していきます。まず、データローディングの機能について説明していきましょう。
Greenplumでは、様々なデータローディング手法があります。
その中で最も高速にデータをローディング出来るのが、この活用例1のローディング方法です。
図7では、マスタサーバ1台とセグメントサーバ2台という、非常に小さなGreenplumシステムを簡易的に表しています。 このGreenplumシステムのインターコネクト部分に、ロードサーバ(NASやファイルサーバ)を直接接続し、マスタサーバを経由しないでデータをローディングすることが可能です。また、このロードサーバ自身を水平方向に増やしていき、ローディング性能を増やしていく、リニアにスケールさせることができます。
Oracleを利用しているユーザであれば、Oracleからファイルをロードサーバ上に掃きだし、そこから直接インターコネクトを経由してセグメントサーバにデータを流し込んでいく、ということも可能です。