分散処理で大量データの高速アクセスを可能にする技術「MapReduce」。これを実装した「Hadoop」の利用が広まり、遂にバージョン2の正式版が登場した。バージョン2では、新たな仕組みである「YARN」の実装が要注目だ。Hadoopプロジェクトに貢献し、企業システムでの利用を進める筆者らが強化点を解説する。

 米GoogleのJeffrey Dean氏らが「MapReduce」を公開してからほぼ10年が経過した2013年10月、MapReduceをオープンソースソフトウエアとして実装した「Hadoop」のバージョン2(v2)が正式リリースとなった。このバージョンでは、極めて大きな変更がある。本稿では、MapReduceおよびHadoopの生まれた経緯と課題を振り返った上で、 バージョン2で強化された点を解説する。

MapReduceの仕組みと特徴

 MapReduceは、大量の生データを高速に処理するための分散処理フレームワークだ(図1)。データを抽出するMapフェーズ、抽出したデータを加工するReduceフェーズという段階を経て、必要なデータを得る。これにより、複数のマシンにまたがった並列処理が可能となる。

図1●MapReduceの概要
図1●MapReduceの概要
[画像のクリックで拡大表示]