HANAとSparkの連携の仕組み(SAPの資料)
HANAとSparkの連携の仕組み(SAPの資料)
[画像のクリックで拡大表示]

 インメモリーのビッグデータ分析フレームワーク「Spark」の開発元である米データブリックスが、独SAPと提携した。Hadoopクラスター上でのSparkによるSQLクエリー分析結果を、SAPのインメモリーRDB「SAP HANA」と連携できるようにした。

 この提携に基づき、SAPはSparkディストリビューションを、SAP HANAとの連携に向けて提供開始した。SAP HANAのサイトから無償でダウンロード可能である。

 同ディストリビューションは、データブリックスが発表したばかりの「Certified Spark Distributions」で認定済みである(関連記事:高速ビッグデータ分析をクラウドで、Spark開発元のDatabricksがサービス開始)。

 2014年6月30日から7月2日に米国で開催したSparkのイベント「Spark Summit 2014」で、SAPのSVP プロダクツ&イノベーション、プラットフォームストラテジー&アドプションのアイアズ・カジ氏が2日目の最初の講演に登壇し、発表した。

Sparkの分析結果をHANAのテーブルに

 SAP HANAは、外部のデータソースと連携するためのコンポーネント「Smart Data Access」を元々備えている。Sparkとは、このSmart Data Accessを介して接続する。

 具体的には、ODBCドライバーを介してSpark上のインタラクティブ分析用機能である「Spark SQL」に接続し、SQLクエリーを発行する。クエリー結果は、HANA上で「リモートテーブル」として扱われ、HANAが備える各種の分析・予測機能をフルに適用できる。HANAで組まれた既存のエンタープライズアプリケーションが、即、Sparkのビッグデータ分析機能を利用できるようになる訳だ。

 SAPが提供を開始したSparkディストリビューションには、Spark 1.0.1に加えて、SparkSQL(Shark)に接続するためのドライバー「Simba Shark Driver」が含まれている。