ここ最近、筆者の周りでも、Hadoopを活用しようというプロジェクトが非常に多く聞かれます。ビッグデータをユーザーが理解し、求め始めており、日本でのビッグデータ、Hadoop市場は次のステージに進みました。
データ・ウエアハウス(DWH)とビジネスインテリジェンス(BI)を軸としながら、Hadoopを融合する形での次世代情報基盤構築。複数の企業内情報システムから横断的に情報を収集し、ビッグデータを含んだ形での情報活用サイクルをPDCA(計画・実行・検証・見直し)で回そうという流れがあります。そしてこの次世代情報活用手法は新たな収益を生み出す仕組みでもあります。
さて、1台のマシンでHadoopのデーモンプロセスを起動させて動きを見られる、シングルノード(疑似分散)モードでYARNベースのインストールを本連載で進めています。注意点ですが、YARNについてはCDH提供ベンダー(米クラウデラ)の見解ではまだ問題が多く品質を担保できないため商用利用は非推奨ということのようです。カレントバージョンのCDHのMapReduceに関する既知の問題リストは以下になりますので必要に応じて確認をしてください。
CDH4のMapReduceにおける既知の問題とワークアラウンド
第7回でOS、JDKの準備とCDHのリポジトリをインストールしました。今回は、CDHのパッケージのインストールを進めます。
パッケージの確認
CDHのインストールをyumコマンドで進めますが、今回はローカルリポジトリを作成していませんので、必ずOSが外部ネットワークに接続されている必要がありますので注意してください。
ローカルリポジトリを作成する場合は以下マニュアルに記述されていますので、興味のある方は設定してみてください。
リポジトリが正しくインストールされているか確認してみましょう。yumコマンドのinfoオプションを利用して、hadoopパッケージを確認してみます。
$ yum info hadoop
Loaded plugins: fastestmirror, refresh-packagekit, security
Determining fastest mirrors
* base: mirror.siamdata.co.th
* extras: mirror.siamdata.co.th
* updates: mirrors.sin3.sg.voxel.net
base | 3.7 kB 00:00
base/primary_db | 4.5 MB 00:04
cloudera-cdh4 | 951 B 00:00
cloudera-cdh4/primary | 24 kB 00:00
cloudera-cdh4 79/79
extras | 3.0 kB 00:00
extras/primary_db | 6.3 kB 00:00
updates | 3.5 kB 00:00
updates/primary_db | 2.3 MB 00:12
Available Packages
Name : hadoop
Arch : x86_64
Version : 2.0.0+91
Release : 1.cdh4.0.1.p0.1.el6
Size : 18 M
Repo : cloudera-cdh4
Summary : Hadoop is a software platform for processing vast amounts of data
URL : http://hadoop.apache.org/core/
License : Apache License v2.0
Description : Hadoop is a software platform that lets one easily write and
: run applications that process vast amounts of data.
:
: Here's what makes Hadoop especially useful:
: * Scalable: Hadoop can reliably store and process petabytes.
: * Economical: It distributes the data and processing across clusters
: of commonly available computers. These clusters can number
: into the thousands of nodes.
: * Efficient: By distributing the data, Hadoop can process it in parallel
: on the nodes where the data is located. This makes it
: extremely rapid.
: * Reliable: Hadoop automatically maintains multiple copies of data and
: automatically redeploys computing tasks based on failures.
:
: Hadoop implements MapReduce, using the Hadoop Distributed File System (HDFS).
: MapReduce divides applications into many small blocks of work. HDFS creates
: multiple replicas of data blocks for reliability, placing them on compute
: nodes around the cluster. MapReduce can then process the data where it is
: located.
コマンドが正しく実行されると、hadoopパッケージが確認できます。表示されるhadoopパッケージの情報について以下の一覧に示します。
情報 | 値 | 説明 |
---|---|---|
Name | hadoop | パッケージ名 |
Arch | x86_64 | チップのアーキテクチャ |
Version | 2.0.0+91 | バージョン番号 (2.0.0ベース、パッチレベル91であることが確認できます) |
Release | 1.cdh4.0.1.p0.1.el6 | リリース番号 (CDH4.0.1であることが確認できます) |
Size | 18M | 製品のサイズ |
Repo | cloudera-cdh4 | リポジトリ名 |
Summary | Hadoop is a software platform for processing vast amounts of data | パッケージまたはインストールされる製品の概要説明 |
URL | http://hadoop.apache.org/core/ | 製品に関連するWebサイトのURL |
License | Apache License v2.0 | 適用されているライセンス |
Description | 省略 | パッケージまたはインストールされる製品の詳細説明 |