ビッグデータの活用に合わせて、オープンソースの分散バッチ処理ソフト「Hadoop」との連携手法に注目が集まってきた。Hadoopの分散ファイルシステム「HDFS」はJavaで実装されているため、独自のAPIを介してアクセスする必要がある。HadoopとRDBMSを素早く連携させたいというニーズが、連携手法を洗練させている。
分散バッチ処理の定番ソフト「Hadoop」をリレーショナルデータベース(RDBMS)と連携させる手法が充実してきた。マイクロソフトのデータウエアハウス(DWH)アプライアンス「SQL Server 2012 Parallel Data Warehouse(PDW)」は、同社が独自開発したクエリーエンジン「Polybase」を搭載し、Hadoopとのデータ転送を高速化した。IBMやオラクル、EMCやサイベースのRDBMSも、同様の連携機能を備える。SQL Server 2012 PDWを例に仕組みを見よう。
Hadoopの強みは、ログに代表される「非構造データ」を高速に処理できることだ。大量のデータを分散バッチで処理し、非構造データからサマライズデータを作る用途に向く。そのサマライズデータを、RDBMSに格納してある「構造化データ」と掛け合わせて分析したいというニーズが、連携機能の充実を後押ししている。
Hadoopの分散ファイルシステム「HDFS(Hadoop Distributed File System)」はJavaで実装されており、独自のAPIを使わなければアクセスできない。そのため、HDFS上のサマリーデータをRDBMS上で分析するには、何らかの連携手法が必要になる。