• BPnet
  • ビジネス
  • IT
  • テクノロジー
  • 医療
  • 建設・不動産
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • PR

  • PR

  • PR

  • PR

  • PR

ニュース

Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開

進藤 智則=日経コンピュータ 2014/06/02 日経コンピュータ

 米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日(米国時間)に公開した。

 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。

 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる(関連記事:NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入)。

 Sparkは、もともと米University of California BerkeleyのAMPLabが開発したオープンソースソフト(OSS)である。現在はAMPLabから独立したベンチャー企業である米Databricksなどが主体となって、世界で100人以上の技術者が活発に開発に関わっている。

 Sparkは既に米Yahooや米NASAなどが分析基盤として活用している。これまでは0.9系として開発が進められてきたが、今回のバージョン1.0の投入により、今後の1.X系のリリースではコアのAPIを固定して後方互換性を保証し、Spark上でアプリケーションを構築しやすくする。Spark自体はScalaで実装されているが、Sparkを利用する場合はScalaだけでなく、JavaやPythonなどからも利用できる。

 SparkはHadoopと異なりインメモリー処理を主体としているため、データの耐障害性に対しては独特のアプローチで対処している。「RDD( Resilient Distributed Datasets)」という読み取り専用(イミュータブル)のデータ構造を基盤にしており、Spark上での演算は、RDDからRDDへの変換を連鎖させて行う。クラスター上のノードで障害が起き、データが失われた場合は、この変換の連鎖に関する情報を基に、残っているRDDから再計算することで対処する仕組みだ。

次ページ以降はITpro会員(無料)の方のみお読みいただけます。

次ページ 機械学習やストリーミング処理などのライブラリを用...
  • 1
  • 2

あなたにお薦め

連載新着

連載目次を見る

今のおすすめ記事

ITpro SPECIALPR

What’s New!

経営

アプリケーション/DB/ミドルウエア

クラウド

設計/開発

サーバー/ストレージ

クライアント/OA機器

ネットワーク/通信サービス

セキュリティ

もっと見る