だからこそDWHは、性能や容量を柔軟に変更できるクラウドで稼働させる価値が高い。AWS、Azureとも独自のアーキテクチャーを備えたDWHのPaaSを提供している。それが「Amazon Redshift」と「SQL Data Warehouse(プレビュー)」だ。今号は、これらDWHのPaaSを取り上げる。

 Redshiftでは、クラスターを構成するノードタイプやノード数で処理性能が変わる。ノード数を増やすスケールアウトが可能だが、ノードタイプやクエリー特性に応じた設計が重要になる。ノードの数やタイプを変えて性能検証を繰り返し、スケールアウト特性を調べた。

 DWHの運用では、データのロード/アンロード、コピーといった処理が日常的に発生する。Redshiftに対して6億件を超えるデータを出し入れすることで、処理性能を検証。ノード数による変化やデータ分割の効果も調べた。

 SQL Data Warehouseの特徴の一つは、クエリーに基づくジョブを処理するコンピューティングノードが1台でも20台でも、60個のストレージにデータを分散配置することだ。これは、スケールアウト・インにおいて、データ再配置の必要をなくし所要時間の短縮を狙ったもの。では、何秒で完了するのか。スケールアウト・イン中のクエリー実行の挙動と併せて調べた。

 逆に60個のストレージへの分散は、データ量が少ないと、オーバーヘッドになる可能性がある。その検証も実施した。さらに、スケールアウトさせたときの性能の変化も調べた。