ETL(Extract/Transform/Load)専用のPaaS(Platform as a Service)として、「AWS Glue」が2017年8月に一般提供(GA)となった。ETLとは、様々なデータベースやストレージからデータを収集・抽出し、分析で扱いやすくする変換・加工処理を行い、データウエアハウス(DWH)などへロードする、という一連の処理を指す。

 Glueが発表された2016年11月以来、ユーザーコミュニティーなどで話題を呼び、待望されてきた。AWSに大規模データ分析基盤を構築するうえで、Glueがこれまで欠けていた重要なピースだからだ(図1)。

図1 大規模データ分析基盤におけるGlueのカバー範囲
図1 大規模データ分析基盤におけるGlueのカバー範囲
[画像のクリックで拡大表示]

 AWSでは大規模データ分析基盤を構築するための様々なサービスを提供している。例えば大量データを蓄積するデータレイクとなるAmazon S3、分析サービスのRedshiftやAthena、可視化サービスのQuick Sightなどがある。

 ただしAWSには従来、データレイクへのデータ収集や、データのプリプロセス(前処理)のサービス、さらにはデータの統合管理に特化したサービスが無かった。そのためユーザーは、サードパーティー製のETLツールを利用したり、ETL機能を個別開発したりする必要があった。Glueは、それら従来欠けていた機能を補う。