NTTデータがサンフランシスコで語った「Sparkを使う理由」

NTTデータ

2014.08.28

　米国サンフランシスコで2014年6月30日から7月2日まで開催されたSpark Summit 2014では、筆者の一人であるNTTデータの土橋昌が、エンタープライズ環境で「Hadoop」を扱ってきたNTTデータの立場から見た「Spark」の評価について講演した。第2回となる今回はこの内容を元に、200台ほどの実サーバーを用いて実施したSparkの検証結果などについて解説しよう。

写真1●NTTデータの土橋昌によるSpark Summit 2014での講演風景

[画像のクリックで拡大表示]

　NTTデータ基盤システム事業本部OSSプロフェッショナルサービスに所属する土橋が登壇したセッションのタイトルは「Spark on large Hadoop cluster and evaluation from the view point of enterprise Hadoop and developer」というものだ（写真1）。NTTデータは6年前からHadoopに関連するシステム構築ビジネスを手がけており、Hadoopを用いた商用システムの構築・運用実績がある。そのような経験に基づいて「Sparkに対してどのような期待を抱いているか」「200台ほどの実サーバーを用いて、現実のシナリオに近い検証を実施し、そこからSparkのどんな特徴が分かったか」といった内容を解説した。