「Hadoop」はこれまでのバッチ処理という枠を越え、汎用の分散データ処理プラットフォームへと進化し始めている。Hadoop上でSQLクエリーを高速に処理したり、インメモリー処理を実行したりすることも可能になった。しかしHadoopの急速な進化は、ユーザーに思わぬ影響も与え始めている。

 Hadoopの進化を下支えしているのが、Apacheソフトウエア財団(ASF)が2013年10月に正式版をリリースした「Hadoop 2」が搭載する「YARN」である。クラスター管理とスケジューリング管理を司るYARNが追加されたことによって、MapReduce以外の様々な処理方式をHadoopクラスター内で同時に実行できるようになったからだ。

 Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「Hadoop Summit 2014」で、「Hadoopが使えるのはバッチ処理だけ。そんな印象はもはや過去のものだ」と強調している。

高速なSQLクエリー処理が可能に

 YARNによって最も恩恵を受けるのは、HadoopとDWH(データウエアハウス)を併用していたユーザーである。これまでのHadoopは、大量の非構造データに対するバッチ処理などでは圧倒的な処理性能を発揮していたが、ある程度構造化したデータに対するSQLクエリー処理などでは、DWHの方が性能が勝っていた。

 ところがYARNが登場することで、Hadoopクラスター上でMPP(マッシッブ・パラレル・プロセッシング)型の分散SQLクエリー処理エンジンを併用できるようになった。米クラウデラの「Impala」や米MapRテクノロジーズの「Drill」、米Pivotalの「HAWQ」、米フェイスブックの「Presto」、米IBMの「Big SQL」などである。これらMPP型の分散SQLクエリー処理エンジンを使えば、これまでHadoopからDWHにデータをエクスポートした上で処理していたSQLクエリー処理をHadoop上で実行できるようになる。