オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」の関連ソフトであり、インメモリーで並列分散処理をする「Spark」に対する注目が高まっている。米国サンフランシスコで2014年6月30日から7月2日まで開発者会議である「Spark Summit 2014」が開催され、1000人以上が参加した。同サミットの模様を3回に分けてレポートする。

 Sparkはメモリー上で並列分散処理をするためのミドルウエアであり、Hadoopと比較されることが多い。HadoopとSparkは、複数台のサーバーを使って処理性能をスケール(拡張)できることは同じだ。しかしHadoopが複数台のサーバーのハードディスクに分散保存したデータを並列に読み出して処理することで高いスループットを得られるように最適化されているのに対して、Sparkはメモリーを使った高速な並列分散処理の実現に最適化されている。そこが大きな違いである。

 Sparkのようなミドルウエアが台頭した背景には、Hadoopが登場した2000年代中頃に比べてメモリーの単価が安くなり、インメモリー処理が現実的になってきたことがある。インメモリー処理をするSparkは、機械学習に代表される「繰り返し処理」や「多段処理」に向いている。

 さらにSparkはHadoopのストレージである「HDFS」からデータを読み込んで処理できる。SparkとHadoopは連携ができるため、Sparkは多くのところで採用されているHadoopのユーザーからも注目を集めている。

2回目の開催で参加者数は倍増

写真●Spark Summit 2014の会場風景
写真●Spark Summit 2014の会場風景
[画像のクリックで拡大表示]

 Spark Summitが開発されるのは今回が2回目。前回の開催は2013年12月なので、わずか半年で2回目が開催されたことになる。参加者は1000人以上で、前回の450人を大きく上回った。日本からもNTTデータをはじめとして20人ほどの参加者がいた模様だ。会場はサンフランシスコ中心部にあるホテル「ウェスティン・セントフランシス サンフランシスコユニオンスクエア」だったが、カンファレンス開始前から大混雑で手狭にさえ感じられた(写真)。

 Spark Summit 2014の会期は6月30日から7月2日までの3日間だが、セッションがあったのは初日の2日間だけ。7月2日は終日、Sparkの使い方などを講習するトレーニングに当てられていた。6月30日と7月1日にはそれぞれ午前中に基調講演(キーノート)があり、午後に個別セッションがあった。個別セッションは利用事例などを取り上げる「アプリケーショントラック」や、Sparkの開発状況や内部動作、各種のライブラリなどについて取り上げる「開発者トラック」、機械学習や先進的な取り組みについて取り上げる「データサイエンス/リサーチトラック」の三つに分かれていた。2日間合計で基調講演は13コマ、個別セッションは50コマがあった。