2012年も11月に入り、気温が下がってぐっと秋めいてきました。しかしビッグデータ関連の熱気は相変わらずで、様々な分野でデータの解析プロジェクトが進み結果の発表がされています。お茶の間に流れるテレビCMでも「ビッグデータ」を宣伝している日本のIT会社もあります。そして日本の多くの大手企業もビッグデータ活用に挑戦しています。

 コミュニティーでは少々アップデートがありました。安定バージョンとして1.0.4 が10月12日に、ベータバージョンとして1.1.0 が10月13日、アルファバージョンとして2.0.2-alpha が10月9日にそれぞれリリースされています。

  一方、CDH(Cloudera's Distribution Including Apache Hadoop)はHDFS(Hadoop分散ファイルシステム)のバグフィックスがされ、 4.1.0のマイクロバージョンアップ版として4.1.2がリリースされました。ここ最近のCDHは少しリリース間隔が短いようです。こうも短いと、なかなか商用利用では追随しづらいですね。

 また、米クラウデラから Impala という、HDFSに対してSQLに類似した問い合わせクエリーを発行してデータを取得できる製品のリリースが発表されました。Apache Hiveとの大きな違いはMapReduce動作なしでクエリーを発行できるところにあります。もちろんリレーショナルデータベースの代替にはなりませんが、「進化したHive」として利用価値は十分にあるでしょう。

 さて、今回はHadoopに付属しているMapReduceのサンプルアプリケーションを動作させてみましょう。

動作させるサンプルアプリケーション

 Apache Hadoopには幾つかのサンプルアプリケーションが付属していますが、今回は、与えられたテキストファイルから指定された単語をカウントする「WordCount」と、同じく与えられたテキストファイルから単語を検索する「Grep」を利用したいと思います。Apache Hadoopではこれらのサンプルアプリケーションが予めjarファイルで提供されています。利用者はコンパイル(ビルド)をする必要なく利用することが可能です。

 「WordCount」の詳細は以下のWikiページを参照してください。

 「Grep」の詳細は以下のWikiページを参照してください。

 これらのアプリケーションは「/usr/lib/hadoop-mapreduce」ディレクトリーにある「hadoop-mapreduce-examples.jar(実際にはhadoop-mapreduce-examples-2.0.0-cdh4.0.1.jar)」ファイルを利用します。