ビッグデータの活用に合わせて、オープンソースの分散バッチ処理ソフト「Hadoop」との連携手法に注目が集まってきた。Hadoopの分散ファイルシステム「HDFS」はJavaで実装されているため、独自のAPIを介してアクセスする必要がある。HadoopとRDBMSを素早く連携させたいというニーズが、連携手法を洗練させている。

 分散バッチ処理の定番ソフト「Hadoop」をリレーショナルデータベース(RDBMS)と連携させる手法が充実してきた。マイクロソフトのデータウエアハウス(DWH)アプライアンス「SQL Server 2012 Parallel Data Warehouse(PDW)」は、同社が独自開発したクエリーエンジン「Polybase」を搭載し、Hadoopとのデータ転送を高速化した。IBMやオラクル、EMCやサイベースのRDBMSも、同様の連携機能を備える。SQL Server 2012 PDWを例に仕組みを見よう。

 Hadoopの強みは、ログに代表される「非構造データ」を高速に処理できることだ。大量のデータを分散バッチで処理し、非構造データからサマライズデータを作る用途に向く。そのサマライズデータを、RDBMSに格納してある「構造化データ」と掛け合わせて分析したいというニーズが、連携機能の充実を後押ししている。

 Hadoopの分散ファイルシステム「HDFS(Hadoop Distributed File System)」はJavaで実装されており、独自のAPIを使わなければアクセスできない。そのため、HDFS上のサマリーデータをRDBMS上で分析するには、何らかの連携手法が必要になる。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。