［第11回］MapReduceアプリケーションを理解する

田澤孝之

2012.12.27

　今年も残り僅かとなりました。皆様はやり残したことはありませんか。本連載の第1回で「昨年2011年は日本ではビッグデータ元年であった」と書かせてただきました。では2012年は「ビッグデータ」の成熟の年になったでしょうか。

　私は多くの意味で成熟したと考えています。ふわふわしてつかみ所が分からなかった「ビッグデータ」が、ITをビジネスとしている企業である、様々な製品ベンダー、システムインテグレータやコンサルティングファームで浸透し、国内外多種多様なソリューションが発表されました。

　多くのユーザー企業では「ビッグデータ」を軸にしたマネタイズやリスク回避での利活用を意識した取り組みが展開されました。特にマーケットの声、顧客の声を掴もうと、CGM（Consumer Generated Media＝消費者生成メディア）活用に関しては、一般企業も継続して大きな関心を抱いています。

　そして「ビッグデータ」を理解すると、なぜ米グーグルが10年も前からユーザーからの検索クエリをひたすら集め続けたかが理解できることでしょう。ちりも積もれば山となり、その山を分析するとマネタイズできるのです。

　Hadoopの理解を先延ばしにしていた皆様は、今年の最後にMapReduceアプリケーションのソースコードを読んで、正しくHadoopを理解しておきましょう。そこで今回は「HadoopにおけるHelloWorld（ハローワールド＝初歩プログラミングの定番）」とも言われている「WordCount」（ワードカウント）ソースコードを確認し、コンパイルから実行するまでの一連の流れを説明していきます。

ソースコードを入手する

　第10回でサンプルに付属している「WordCount」アプリケーションを実行させました。今回は実行した「WordCount」アプリケーションのソースコードを確認して、MapReduceアプリケーション実装の基礎を確認します。

　　まずは、ブラウザーを利用してソースコードをホームディレクトリにダウンロードします。最新版はCDH4.1.2ですが、本連載で利用しているバージョンに併せて CDH4.0.1のソースコードを取得します。

　ファイルを入手したらtarコマンドを利用してホームディレクトリに展開してください。

$ tar xvf hadoop-2.0.0-cdh4.0.1.tar.gz

　コマンドを実行したディレクトリにhadoop-2.0.0-cdh4.0.1というディレクトリが作成されます。この中にCDHのすべてのソースコードが入っています。ここでは、サンプル「WordCount」アプリケーションのソースコードファイル「WordCount.java」を、確認するために、cpコマンドを利用してホームディレクトリにコピーしましょう。

$ cp hadoop-2.0.0-cdh4.0.1/src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java .

ソースコードを入手する

あなたにお薦め

今日のピックアップ

キーワードは「ふ化」と「自走」、7領域38講座を用意する日清食品の社内デジタル教育

ディープフェイク音声を会話中の「息継ぎ」で見抜く、精度80％超の新手法が登場

客先の言いなりにはならない、常駐の2大デメリットを克服する

2画面のモバイルディスプレー、ノートPCやスマホで手軽にトリプル化

社員の平均年収は1000万円目前、大塚商会の営業モチベーションアップの秘密

競合17社の機密情報を学習した創薬AI、エーザイや小野薬品などが参画

明治が30年来のメインフレームを完全撤廃へ、「塩漬け」レガシーをJavaに自動変換

あれもこれも「ノーコード」、このままだと未来はない

JR貨物が車両整備システム導入で年1万8000時間削減、データ活用し車輪交換最適化

容量不足でスマホを「アップデートできない」、不要なデータを削除する正しい手順

Edgeは検索を楽にする機能が充実、Chromeでは手順が多くなることも

31歳ITエンジニア、「平均額程度」の賃上げは普通レベルの残念な評価なのか

注目記事

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

おすすめのセミナー

「仮説立案」実践講座

CIO養成講座 【第35期】

改革リーダーのコミュニケーション術

パワポ資料が見違える「ビジネス図解」4つのセオリー

間違いだらけの設計レビュー

オンライン版「なぜなぜ分析」演習付きセミナー実践編

問題解決のためのデータ分析活用入門

業務改革プロジェクトリーダー養成講座【第16期】

注目のイベント

【4月25日】ハイパーバイザーの基本を学ぶ、参加者にはもれなくプレゼント進呈

プラチナフォーラム 2024 Spring

日経クロステックNEXT 関西 2024

日経ビジネスCEOカウンシル

VUCA時代に勝ち残る戦略的サプライチェーン構築に向けて

人手不足を乗り越える 日本の産業界成長のシナリオ2024

キャリア・オーナーシップが社会を変える

DX Insight 2024 Summer

デジタル立国ジャパン2024

DIGITAL Foresight 2024 Summer

おすすめの書籍

ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く 改革リーダーのコミュニケーション術

もっと絞れる AWSコスト超削減術

優秀な人材が求める３つのこと 退職を前提とした組織運営と人材マネジメント

Web3の未解決問題

ロボット未来予測2033

日経BOOKプラスの新着記事

はじめに：『ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団』

競馬・宝くじと比べれば明快 生命保険は行動経済学的に不合理

もはやひとごとではない物語 石原壮一郎が選ぶ夫婦関係を見直す2冊

はじめに：『東京大改造2030 都心の景色を変える100の巨大プロジェクト』

人生がいとおしくなる、大人のファンタジー・ゴルフ小説

「本を贈る日」に日経BOOKプラス編集部員が、贈りたい本 2024

はじめに：『マッキンゼー 価値を創るM＆A』

フェリス阿部教諭「今なお、この本を読むことには大きな意味がある」

プロゴルファーになる夢を絶たれた男の再生物語

同志社生協 大学らしい品ぞろえと「町の本屋さん」の役割を意識

日経クロステック Special

What's New

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ

この機能は会員登録（無料）で使えるようになります

フォロー連載・特集

設定

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力

CIO養成講座【第35期】

人手不足を乗り越える日本の産業界成長のシナリオ2024

ソフトバンクもう一つの顔　成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く　改革リーダーのコミュニケーション術

もっと絞れる　AWSコスト超削減術

優秀な人材が求める３つのこと　退職を前提とした組織運営と人材マネジメント

はじめに：『ソフトバンクもう一つの顔　成長をけん引する課題解決のプロ集団』

競馬・宝くじと比べれば明快　生命保険は行動経済学的に不合理

もはやひとごとではない物語　石原壮一郎が選ぶ夫婦関係を見直す2冊

はじめに：『東京大改造2030　都心の景色を変える100の巨大プロジェクト』

「本を贈る日」に日経BOOKプラス編集部員が、贈りたい本　2024

はじめに：『マッキンゼー価値を創るM＆A』

同志社生協　大学らしい品ぞろえと「町の本屋さん」の役割を意識