今年も残り僅かとなりました。皆様はやり残したことはありませんか。本連載の第1回で「昨年2011年は日本ではビッグデータ元年であった」と書かせてただきました。では2012年は「ビッグデータ」の成熟の年になったでしょうか。

 私は多くの意味で成熟したと考えています。ふわふわしてつかみ所が分からなかった「ビッグデータ」が、ITをビジネスとしている企業である、様々な製品ベンダー、システムインテグレータやコンサルティングファームで浸透し、国内外多種多様なソリューションが発表されました。

 多くのユーザー企業では「ビッグデータ」を軸にしたマネタイズやリスク回避での利活用を意識した取り組みが展開されました。特にマーケットの声、顧客の声を掴もうと、CGM(Consumer Generated Media=消費者生成メディア)活用に関しては、一般企業も継続して大きな関心を抱いています。

 そして「ビッグデータ」を理解すると、なぜ米グーグルが10年も前からユーザーからの検索クエリをひたすら集め続けたかが理解できることでしょう。ちりも積もれば山となり、その山を分析するとマネタイズできるのです。

 Hadoopの理解を先延ばしにしていた皆様は、今年の最後にMapReduceアプリケーションのソースコードを読んで、正しくHadoopを理解しておきましょう。そこで今回は「HadoopにおけるHelloWorld(ハローワールド=初歩プログラミングの定番)」とも言われている「WordCount」(ワードカウント)ソースコードを確認し、コンパイルから実行するまでの一連の流れを説明していきます。

ソースコードを入手する

 第10回でサンプルに付属している「WordCount」アプリケーションを実行させました。今回は実行した「WordCount」アプリケーションのソースコードを確認して、MapReduceアプリケーション実装の基礎を確認します。

  まずは、ブラウザーを利用してソースコードをホームディレクトリにダウンロードします。最新版はCDH4.1.2ですが、本連載で利用しているバージョンに併せて CDH4.0.1のソースコードを取得します。

 ファイルを入手したらtarコマンドを利用してホームディレクトリに展開してください。

$ tar xvf hadoop-2.0.0-cdh4.0.1.tar.gz

 コマンドを実行したディレクトリにhadoop-2.0.0-cdh4.0.1というディレクトリが作成されます。この中にCDHのすべてのソースコードが入っています。ここでは、サンプル「WordCount」アプリケーションのソースコードファイル「WordCount.java」を、確認するために、cpコマンドを利用してホームディレクトリにコピーしましょう。

$ cp hadoop-2.0.0-cdh4.0.1/src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java .