Hadoop連携を高速に

森山徹＝日経コンピュータ

2013.09.25

出典：日経コンピュータ 2013年4月18日号 pp.88-89
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

　ビッグデータの活用に合わせて、オープンソースの分散バッチ処理ソフト「Hadoop」との連携手法に注目が集まってきた。Hadoopの分散ファイルシステム「HDFS」はJavaで実装されているため、独自のAPIを介してアクセスする必要がある。HadoopとRDBMSを素早く連携させたいというニーズが、連携手法を洗練させている。

　分散バッチ処理の定番ソフト「Hadoop」をリレーショナルデータベース（RDBMS）と連携させる手法が充実してきた。マイクロソフトのデータウエアハウス（DWH）アプライアンス「SQL Server 2012 Parallel Data Warehouse（PDW）」は、同社が独自開発したクエリーエンジン「Polybase」を搭載し、Hadoopとのデータ転送を高速化した。IBMやオラクル、EMCやサイベースのRDBMSも、同様の連携機能を備える。SQL Server 2012 PDWを例に仕組みを見よう。

　Hadoopの強みは、ログに代表される「非構造データ」を高速に処理できることだ。大量のデータを分散バッチで処理し、非構造データからサマライズデータを作る用途に向く。そのサマライズデータを、RDBMSに格納してある「構造化データ」と掛け合わせて分析したいというニーズが、連携機能の充実を後押ししている。

　Hadoopの分散ファイルシステム「HDFS（Hadoop Distributed File System）」はJavaで実装されており、独自のAPIを使わなければアクセスできない。そのため、HDFS上のサマリーデータをRDBMS上で分析するには、何らかの連携手法が必要になる。

この先は日経クロステック Active会員の登録が必要です

会員の方はこちら
ログイン
未登録の方はこちら
会員登録

日経クロステック Activeは、IT／製造／建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録（無料）をお願いいたします。

Hadoop連携を高速に

この先は日経クロステック Active会員の登録が必要です

このコラムのバックナンバー

ビッグデータ高速処理技術

データベースも「ハイブリッド型」へ

異常を見抜く「インバリアント分析」

100ギガに突入するInfiniBand

仮想化環境のI/Oブースター

この先は日経クロステック Active会員の登録が必要です

編集部イチ押しの資料（ホワイトペーパー）

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

このコラムのバックナンバー

ビッグデータ高速処理技術

データベースも「ハイブリッド型」へ

異常を見抜く「インバリアント分析」

100ギガに突入するInfiniBand

仮想化環境のI/Oブースター

なぜ生成AI時代にAPI管理が重要か？分断されたデータを自動的にまとめて活用

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力