大量のデータを分析したい――。こう考えてデータウエアハウス・システムを構築しようとすると、これまでは数千万~数億円もかけて高価な専用機を購入するのが一般的でした。こうした常識を大きく変えたのが、AWSのデータウエアハウス・サービス「Amazon Redshift」です。Amazon RedshiftはAWSのなかで最も成長しているサービスで、関心を持つ読者も多いかもしれません。今回はそのポイントを解説します。

 Amazon Redshiftは、ペタバイト級(1ペタバイト=1000テラバイト=100万ギガバイト)の大量データを処理する機能を備えたデータウエアハウス・サービスです。その特長は、高速性と投資対効果の高さです。Amazon Redshiftが扱う全データを、既存のビジネスインテリジェンスツールで分析することができるので、ユーザーはこれまでの資産を有効活用できるでしょう。

 小さく始めることも、もちろん可能です。1ノードから始めることもできます。料金は従量課金制で、前払いは不要です。利用料金は1テラバイト当たり年間約1000ドル(10万円)、他社製のデータウエアハウス・ソリューションの10分の1以下の投資で済むという試算もあります。不要になれば、サービス利用をすぐさまやめることもできます。

5つのステップでデータウエアハウス

 大まかな特長は理解いただけたと思います。次は利用手順を見ていきましょう。

(ステップ1)クライアントツールやドライバーをダウンロード
 まずSQLクライアントツールとPostgreSQL JDBCまたはODBCドライバーをダウンロードしてください。Amazon Redshiftは、PostgreSQLのJDBC(Javaとリレーショナルデータベースの接続のためのAPI)とODBC(マイクロソフトによって提唱されたデータベースにアクセスするためのソフトウエア標準仕様)でデータをやり取りするからです。

 SQLクライアントツールは、既に使っているもので構いません。もしくは無料で使えるSQLWorkbench/JのようなSQLクエリツールでも問題ありません。

(ステップ2)クラスターを起動
 AWSマネジメントコンソールを使ってクラスターを起動します。いくつかの設定が必要ですが、クリック数回で起動できるぐらいの作業量だと考えてください。まずリージョンを選択しましょう。東京リージョンを選択すれば、日本国内にクラスターが起動します。

 次はノードの種類と数の指定。タイプは「dw1.xlarge」、「dw1.8xlarge」、「dw2.large」、「dw2.8xlarge」から選択してください。dw1は、ハードディスクをベースにしたタイプで、大規模なデータウエアハウスを安価に構築できます。一方dw2は、高速CPU、大容量RAM、SSDを備えた高性能なデータウエアハウスを構築できます。

 ここまでくれば、「Amazon Virtual Private Cloud (VPC)の利用」などのオプションをいくつか指定すれば起動できます。クラスターを起動した後は、クラスターを終了させるまで、そのクラスターについてAmazon Redshiftの標準使用料が発生します。