Hadoopによる分散クラスター上で、高速なビッグデータ分析を可能にするフレームワークとして注目されている「Spark」(関連記事:次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム)。そのSparkをホスティングしたクラウドサービスが始まる。

 Sparkの開発元企業である米Databricksは、分散クラスターを自社で構築しなくとも、クラウド上でSparkを即利用できるサービス「Databricks Cloud」を開始した。2014年6月30日から米国で開催中のSparkのイベント「Spark Summit 2014」で明らかにした。

 現在はベータ版として限定的に公開している段階で、ベータユーザーを同社サイトで受け付けている。

 Databricks Cloudでは、Sparkを構成する各種フレームワークを利用できる。SQLによるインタラクティブ分析用の「Spark SQL」、ストリーム分析用の「Spark Streaming」、機械学習ライブラリの「MLlib」、グラフ分析用の「GraphX」である。

 Databricks Cloudは現状ではAWS(Amazon Web Services)上で稼働させているが、今後、「Google Compute Engine」や「Microsoft Azure」といった他のクラウドサービスにも広げるもようである。

ダッシュボードなどのビルトインアプリを用意

 Databricks Cloudでは素のSparkだけでなく、データの可視化などが可能なアプリケーションも標準で用意してある。主に三つある。データの探索などをインタラクティブに実施するためのインタフェースとなる「Notebooks」、Notebooksでの分析結果を表示する「Dashboards」、Sparkの分散クラスター上でのジョブを開始するための「Job Launcher」である。

 Databricksは2014年6月に、Spark上で走るサードパーティのアプリケーションを認定するプログラム「Certified on Spark」を発表しており、この認定を受けたアプリケーションであれば、Databricks Cloud上で利用できるようにする。