Hadoopを動かすには、少なくとも1台のLinuxマシンが必要になります。実際に効果を得るためには、巨大なデータと、物理的に多数のPCを用意する必要があります。

表1●Hadoopの動作モード
表1●Hadoopの動作モード
[画像のクリックで拡大表示]

 Hadoopには3つの動作モードがあり、どのモードを動かすかによって必要な環境が異なります(表1)。本記事では、1台のマシン上でHadoopの各デーモンを起動する「疑似分散モード」を動かし、Hadoopの動作を確認します。

Linux環境の準備

 まず最初に、Linuxが動作する環境を準備してください。もし古いPCなど、現在使っていないPCがあれば、そこにインストールすればいいでしょう。そのような余ったPCが無ければWindowsマシン上の仮想化ソフトで、Linuxを使うという方法もあります。

 Linuxのインストールは極めて簡単です。Linuxをこれまでまったく触れたことがない人でも、GUIの操作で簡単にインストールできます。Linuxのインストール方法については、p.129を参照してください。Linuxには、「Fedora」や「CentOS」や「Ubuntu」などのように、「ディストリビューション」と呼ばれる様々な種類がありますが、どれを使っても構いません。ここでは、「CentOS 5.4」を使って作業します。

 なお、完全分散モードで動かす場合には、マシン間で通信が行われるため、Linux環境上でファイアウォールを設定している場合にはうまく動かないことがあります。Linuxのファイアウォール機能はオフにしておきましょう。

Sun JDKのインストール

 Hadoopを動かすには、Javaバージョン1.6以降が必要です。

 Hadoopコミュニティは、Sun JDK (Java SE Development Kit)の利用を推奨しています。SunのJavaSEのサイトにアクセスし、JDKの最新版をダウンロードし、Linux環境にインストールしてください。記事執筆時点では、JDK 6 Update 18が最新版になります。

 ではまず、「Sun SDKのインストール」の通り、JDKをダウンロードしましょう。

 ここでは、「jdk-6u18-linux-i586.bin」というファイルをダウンロードしたとします。このファイルは、適当なフォルダ(ディレクトリ)に保存してください。Linuxの「端末」を開き、ダウンロードしたjdkファイルに実行権限を与えて実行します。なお、「su」は権限を管理者(root)に切り替えるコマンドです。

$ su
# chmod 755 jdk-6u18-linux-i586.bin
# ./jdk-6u18-linux-i586.bin

 すると、そのディレクトリに「jdk1.6.0_18」というディレクトリが出来上がります。これを、「/opt」というディレクトリに移します。

# mv jdk1.6.0_18 /opt

 さて、ダウンロードしたファイルは実行ファイルです。Linuxの「端末」からコマンドを次のように実行してください。最初に、chmodコマンドでファイルに対して実行権限を与え、その後、実行します。

# chmod +x jdk-6u18-linux-x64.bin
# ./jdk-6u18-linux-x64.bin

 「Sun Microsystems, Inc. Binary Code License Agreement」から始まる長文が出てきます。ライセンスを読み、許諾する場合、「Do you agree to the above license terms? [yes or no]」で、「yes」とタイプします。すると、jdkのインストールが始まります。