［第8回］Hadoopの利用インストール編

田澤孝之

2012.09.06

　ここ最近、筆者の周りでも、Hadoopを活用しようというプロジェクトが非常に多く聞かれます。ビッグデータをユーザーが理解し、求め始めており、日本でのビッグデータ、Hadoop市場は次のステージに進みました。

　データ・ウエアハウス（DWH）とビジネスインテリジェンス（BI）を軸としながら、Hadoopを融合する形での次世代情報基盤構築。複数の企業内情報システムから横断的に情報を収集し、ビッグデータを含んだ形での情報活用サイクルをPDCA（計画・実行・検証・見直し）で回そうという流れがあります。そしてこの次世代情報活用手法は新たな収益を生み出す仕組みでもあります。

　さて、1台のマシンでHadoopのデーモンプロセスを起動させて動きを見られる、シングルノード（疑似分散）モードでYARNベースのインストールを本連載で進めています。注意点ですが、YARNについてはCDH提供ベンダー（米クラウデラ）の見解ではまだ問題が多く品質を担保できないため商用利用は非推奨ということのようです。カレントバージョンのCDHのMapReduceに関する既知の問題リストは以下になりますので必要に応じて確認をしてください。

CDH4のMapReduceにおける既知の問題とワークアラウンド

　第7回でOS、JDKの準備とCDHのリポジトリをインストールしました。今回は、CDHのパッケージのインストールを進めます。

パッケージの確認

　CDHのインストールをyumコマンドで進めますが、今回はローカルリポジトリを作成していませんので、必ずOSが外部ネットワークに接続されている必要がありますので注意してください。

　ローカルリポジトリを作成する場合は以下マニュアルに記述されていますので、興味のある方は設定してみてください。

https://ccp.cloudera.com/display/CDH4DOC/Creating+a+Local+Yum+Repository

　リポジトリが正しくインストールされているか確認してみましょう。yumコマンドのinfoオプションを利用して、hadoopパッケージを確認してみます。

$ yum info hadoop
Loaded plugins: fastestmirror, refresh-packagekit, security
Determining fastest mirrors
 * base: mirror.siamdata.co.th
 * extras: mirror.siamdata.co.th
 * updates: mirrors.sin3.sg.voxel.net
base                                      | 3.7 kB     00:00     
base/primary_db                           | 4.5 MB     00:04     
cloudera-cdh4                             |  951 B     00:00     
cloudera-cdh4/primary                     |  24 kB     00:00     
cloudera-cdh4                                               79/79
extras                                    | 3.0 kB     00:00     
extras/primary_db                         | 6.3 kB     00:00     
updates                                   | 3.5 kB     00:00     
updates/primary_db                        | 2.3 MB     00:12     
Available Packages
Name        : hadoop
Arch        : x86_64
Version     : 2.0.0+91
Release     : 1.cdh4.0.1.p0.1.el6
Size        : 18 M
Repo        : cloudera-cdh4
Summary     : Hadoop is a software platform for processing vast amounts of data
URL         : http://hadoop.apache.org/core/
License     : Apache License v2.0
Description : Hadoop is a software platform that lets one easily write and
            : run applications that process vast amounts of data.
            : 
            : Here's what makes Hadoop especially useful:
            : * Scalable: Hadoop can reliably store and process petabytes.
            : * Economical: It distributes the data and processing across clusters
            :               of commonly available computers. These clusters can number
            :               into the thousands of nodes.
            : * Efficient: By distributing the data, Hadoop can process it in parallel
            :              on the nodes where the data is located. This makes it
            :              extremely rapid.
            : * Reliable: Hadoop automatically maintains multiple copies of data and
            :             automatically redeploys computing tasks based on failures.
            : 
            : Hadoop implements MapReduce, using the Hadoop Distributed File System （HDFS）.
            : MapReduce divides applications into many small blocks of work. HDFS creates
            : multiple replicas of data blocks for reliability, placing them on compute
            : nodes around the cluster. MapReduce can then process the data where it is
            : located.

　コマンドが正しく実行されると、hadoopパッケージが確認できます。表示されるhadoopパッケージの情報について以下の一覧に示します。

表1●Hadoopパッケージの情報

情報	値	説明
Name	hadoop	パッケージ名
Arch	x86_64	チップのアーキテクチャ
Version	2.0.0+91	バージョン番号（2.0.0ベース、パッチレベル91であることが確認できます）
Release	1.cdh4.0.1.p0.1.el6	リリース番号（CDH4.0.1であることが確認できます）
Size	18M	製品のサイズ
Repo	cloudera-cdh4	リポジトリ名
Summary	Hadoop is a software platform for processing vast amounts of data	パッケージまたはインストールされる製品の概要説明
URL	http://hadoop.apache.org/core/	製品に関連するWebサイトのURL
License	Apache License v2.0	適用されているライセンス
Description	省略	パッケージまたはインストールされる製品の詳細説明