ここ最近、筆者の周りでも、Hadoopを活用しようというプロジェクトが非常に多く聞かれます。ビッグデータをユーザーが理解し、求め始めており、日本でのビッグデータ、Hadoop市場は次のステージに進みました。

 データ・ウエアハウス(DWH)とビジネスインテリジェンス(BI)を軸としながら、Hadoopを融合する形での次世代情報基盤構築。複数の企業内情報システムから横断的に情報を収集し、ビッグデータを含んだ形での情報活用サイクルをPDCA(計画・実行・検証・見直し)で回そうという流れがあります。そしてこの次世代情報活用手法は新たな収益を生み出す仕組みでもあります。

 さて、1台のマシンでHadoopのデーモンプロセスを起動させて動きを見られる、シングルノード(疑似分散)モードでYARNベースのインストールを本連載で進めています。注意点ですが、YARNについてはCDH提供ベンダー(米クラウデラ)の見解ではまだ問題が多く品質を担保できないため商用利用は非推奨ということのようです。カレントバージョンのCDHのMapReduceに関する既知の問題リストは以下になりますので必要に応じて確認をしてください。

CDH4のMapReduceにおける既知の問題とワークアラウンド

 第7回でOS、JDKの準備とCDHのリポジトリをインストールしました。今回は、CDHのパッケージのインストールを進めます。

パッケージの確認

 CDHのインストールをyumコマンドで進めますが、今回はローカルリポジトリを作成していませんので、必ずOSが外部ネットワークに接続されている必要がありますので注意してください。

 ローカルリポジトリを作成する場合は以下マニュアルに記述されていますので、興味のある方は設定してみてください。

 リポジトリが正しくインストールされているか確認してみましょう。yumコマンドのinfoオプションを利用して、hadoopパッケージを確認してみます。

$ yum info hadoop
Loaded plugins: fastestmirror, refresh-packagekit, security
Determining fastest mirrors
 * base: mirror.siamdata.co.th
 * extras: mirror.siamdata.co.th
 * updates: mirrors.sin3.sg.voxel.net
base                                      | 3.7 kB     00:00     
base/primary_db                           | 4.5 MB     00:04     
cloudera-cdh4                             |  951 B     00:00     
cloudera-cdh4/primary                     |  24 kB     00:00     
cloudera-cdh4                                               79/79
extras                                    | 3.0 kB     00:00     
extras/primary_db                         | 6.3 kB     00:00     
updates                                   | 3.5 kB     00:00     
updates/primary_db                        | 2.3 MB     00:12     
Available Packages
Name        : hadoop
Arch        : x86_64
Version     : 2.0.0+91
Release     : 1.cdh4.0.1.p0.1.el6
Size        : 18 M
Repo        : cloudera-cdh4
Summary     : Hadoop is a software platform for processing vast amounts of data
URL         : http://hadoop.apache.org/core/
License     : Apache License v2.0
Description : Hadoop is a software platform that lets one easily write and
            : run applications that process vast amounts of data.
            : 
            : Here's what makes Hadoop especially useful:
            : * Scalable: Hadoop can reliably store and process petabytes.
            : * Economical: It distributes the data and processing across clusters
            :               of commonly available computers. These clusters can number
            :               into the thousands of nodes.
            : * Efficient: By distributing the data, Hadoop can process it in parallel
            :              on the nodes where the data is located. This makes it
            :              extremely rapid.
            : * Reliable: Hadoop automatically maintains multiple copies of data and
            :             automatically redeploys computing tasks based on failures.
            : 
            : Hadoop implements MapReduce, using the Hadoop Distributed File System (HDFS).
            : MapReduce divides applications into many small blocks of work. HDFS creates
            : multiple replicas of data blocks for reliability, placing them on compute
            : nodes around the cluster. MapReduce can then process the data where it is
            : located.

 コマンドが正しく実行されると、hadoopパッケージが確認できます。表示されるhadoopパッケージの情報について以下の一覧に示します。

表1●Hadoopパッケージの情報
情報 説明
Name hadoop パッケージ名
Arch x86_64 チップのアーキテクチャ
Version 2.0.0+91 バージョン番号
(2.0.0ベース、パッチレベル91であることが確認できます)
Release 1.cdh4.0.1.p0.1.el6 リリース番号
(CDH4.0.1であることが確認できます)
Size 18M 製品のサイズ
Repo cloudera-cdh4 リポジトリ名
Summary Hadoop is a software platform for processing vast amounts of data パッケージまたはインストールされる製品の概要説明
URL http://hadoop.apache.org/core/ 製品に関連するWebサイトのURL
License Apache License v2.0 適用されているライセンス
Description 省略 パッケージまたはインストールされる製品の詳細説明