ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。

 同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」(同社)という。

 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供している。Telefonicaはサイバー攻撃の防止、NH Hotelsは、SNS上での宿泊客のレビューを会計データと共に分析する、といった用途で用いている。

 例えば、Telefonicaの事例では、DNSのトラフィック、IPアドレス、SNSといったデータ源からKafkaでデータを収集。その後、Stormでデータを融合・正規化し、最終段でSparkとCassandraを利用している。

Certified Spark Distributionを取得

 同社のビッグデータ分析ソフト「Stratio」は、Sparkディストリビューションの互換性認定である「Certified Spark Distribution」を取得している。

 Certified Spark Distributionは、Sparkの開発元である米Databricksのテストスイートにより認定する仕組みである(関連記事:高速ビッグデータ分析をクラウドで、Spark開発元のDatabricksがサービス開始)。

 Stratioは、SQLインタフェースとなる「Stratio Meta」、SparkをCassandraやMongoDBといったNoSQLと連携させる「Stratio Deep」、Spark StreamingをKafkaやCEPエンジンの「Siddhi CEP」と連携させる「Stratio Streaming」などから成る(関連資料)。