［3］SQLライクに分散処理できるHive

NTTコムウェア

2012.06.20

　オープンソースの分散処理フレームワーク「Hadoop MapReduce」は、大容量データを迅速に処理したいケースで威力を発揮します。そのMapReduceをより使いやすくするためのツールが「Pig」と「Hive」です。今回は、Hiveを“体感”する方法を解説します。

　前回は、大量のデータを高速に処理するための分散処理フレームワーク「Hadoop MapReduce」（以下、MapReduceと表記）を、簡単に扱えるようにするオープンソースソフトウエア（OSS）として「Pig」を紹介しました。今回登場する「Hive」は、米Facebook社で開発された、Hadoop上にデータウェアハウス（DWH）を構築するための基盤ソフトです。2008年12月に正式にHadoopプロジェクトに寄贈され、Pigと同様にHadoopを補完するサブプロジェクトの1つとして開発が進んでいます。

　米Yahoo！社主催のHadoopユーザー向けイベント「Hadoop Summit 2010」によれば、Hiveを開発したFacebookでは、95%のMapReduceジョブを、Hiveプログラムで実行しているそうです。またインターネットラジオをベースにしたSNSとして有名な「Last FM」などのWebサービスを提供する企業の多くが、ログ解析やデータウエアハウス（DWH）などの用途にHiveを活用しています。

テーブルが扱えるHive

図1●Hiveによるデータの分散処理

[画像のクリックで拡大表示]

　Hiveの特徴は、MapReduceの処理をリレーショナルデータベース（RDB）のテーブル操作のように実行できることです（図1）。Hiveの問い合わせ言語である「HiveQL」は、RDBの「SQL＊」に似ています。Hiveで扱えるオペレータには、抽出の「SELECT」、結合の「JOIN」、グループ化の「GROUP」、そして集約の「UNION」があります。またテーブル定義では、表のようなコマンドが使えます。

表●Hiveで使えるテーブル定義（DDL*）の例

　HiveQLは第1回で紹介した「Pig Latin」よりもさらにSQL言語に似ており、SQLで可能な処理の多くを実行できます。このためRDBと似た操作手順で、Hadoopの特徴である汎用的なPCサーバーでの大規模データの集計や分析が可能です。実際、本記事の冒頭で事例として紹介したFacebookやLast FMは、自社でHiveを利用する理由として(1)SQLに慣れ親しんだ技術者にとって使い易い、(2)既存のRDB内のデータとの相性が良い、ということを挙げています。

　HiveにはRDBに備わっている、不可分な一連の処理を保証する「トランザクション＊」やテーブルを行レベルで更新するといった機能はありませんが、Hadoopならではの処理手順を新たに習得することなく手軽にDWHを構築できます。

　第1～第2回のPigと今回のHiveはMapReduceの「ラッパー＊」として動作するので、HDFSのファイルを共有できます。そのためPigでファイルの置換・変換処理をした後に、Hiveで集計するという使い方が可能です。

Hiveのインストール手順

　RDBをお使いになった方であれば、「従来とほとんど同じ集計や分析を分散処理の環境上でできるのでは？」と思うのではないでしょうか。これからHiveを体感するための環境を整えていきましょう。

　第1～第2回と同様に、Ubuntu 10.10をインストールしたテスト用マシンを1台用意し、Hadoopの実行環境を構築します（図2）。そのマシンにHiveをインストールしてHadoopを扱えるようにしたうえで、大容量のサンプルデータをHiveを使って集計処理してみます。

図2●今回のテスト環境

　なお複数のマシンでHadoopクラスタを構成している場合でも、Pigと同様に全てのマシンにHiveをインストールする必要はありません。クライアントのいずれか1台にインストールするだけです。

　今回利用するHadoopのバージョンは0.20.2、Hiveのバージョンは0.6.0を使用します。第1～第2回で利用した0.21.0は、Hiveを動作させるのにパッチが必要になります。0.20.2であればそのまま動作しますので、既に0.21.0を導入した方も、0.20.2をインストールしてください（後半の囲み記事）。「hadoop-0.20.2.tar.gz」と「hive-0.6.0-bin.tar.gz」を「http://hive.apache.org/」などからダウンロードしてください。また、以下の手順は「nikkei」ユーザーで作業することを前提にしていますので、自分のユーザー名に置き換えながら設定を進めましょう。

　まず、Hiveのtarファイルをファイルシステムの適当な場所（ここでは/optとします）で解凍、展開します。

# sudo tar zxvf /opt/hive-0.6.0-bin.tar.gz -C /opt

　続いてバージョン管理をしやすくするために、解凍したHiveのディレクトリ（ここでは/opt/ hive-0.6.0-bin）にシンボリックリンクを張ります。

$ ln -s /opt/hive-0.6.0-bin /opt/hive

　次に、JavaやHiveのインストール先をHiveに伝える環境変数を設定します。ログイン時に自動実行される「.bashrc」と、Hiveの設定ファイルをそれぞれ編集しましょう。エディタとしてGNU nanoを使う場合は

$ sudo nano -w ~/.bashrc

としてホームディレクトリの.bashrcファイルを開き、図3の内容を追加します。さらに

$ source ～/.bashrc

として、先ほどの設定をシステムに反映させます。

図3●Hiveを起動するための設定を「.bashrc」に追加

　最後に、必要に応じてHiveが使うメモリー量を調節します。デフォルトでは4Gバイトを使用するので、4Gバイト未満の容量しかないテストマシンでは起動に失敗するためです。

$ sudo nano -w /opt/hive/bin/ext/util/execHiveCmd.sh

として、33行目の「HADOOP_HEAPSIZE=4096」の値部分を変更します。例えば1Gバイトなら「HADOOP_HEAPSIZE=1024」に変更してください。

テーブルが扱えるHive

Hiveのインストール手順

あなたにお薦め

今日のピックアップ

NECが受注したe-Govのガバクラ移行が大幅遅延、構築手法の途中変更が影響か

生成AIを悪用して拡散するワームが登場する恐れ、セキュリティー研究者が警鐘

Javaはなぜかっこ悪いと思われているのか、ChatGPTと共に原因を探ってみた

PayPayと三井住友カードが取引履歴で資金繰り支援、加盟店取り込みへ高まる熱

有名人になりすまして投資広告を掲載、SNSで接触してみた結果

「四重苦」で伸び悩む日本市場、なぜ海外スマホメーカーが開拓に本腰を入れるのか

IIJ公式サイトのPVがある日突然13倍に、バズったわけでも炎上したわけでもない裏側

JavaScriptの文末のセミコロン、付けない場合はいったい何が起こるのか

ミッドレンジスマホのお薦めランキング、「値下げ」でコスパに変化

M3搭載「MacBook Air」とM2搭載モデルを比較、外付けディスプレー2台接続も試す

画面デザインが激変したAcrobat Reader、慣れるまでは旧UIとの併用も

縦長のWebページ全体を画像で保存、メニューから選べるEdgeがChromeより便利

注目記事

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

おすすめのセミナー

「仮説立案」実践講座

CIO養成講座 【第35期】

改革リーダーのコミュニケーション術

パワポ資料が見違える「ビジネス図解」4つのセオリー

間違いだらけの設計レビュー

オンライン版「なぜなぜ分析」演習付きセミナー実践編

問題解決のためのデータ分析活用入門

業務改革プロジェクトリーダー養成講座【第16期】

注目のイベント

日経クロステックNEXT 関西 2024

日経ビジネスCEOカウンシル

VUCA時代に勝ち残る戦略的サプライチェーン構築に向けて

人手不足を乗り越える 日本の産業界成長のシナリオ2024

キャリア・オーナーシップが社会を変える

DX Insight 2024 Summer

WOMAN EXPO 2024

デジタル立国ジャパン2024

DIGITAL Foresight 2024 Summer

成長戦略への次の一手、製品・サービス強化に効くDXの本質（仮）

おすすめの書籍

ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く 改革リーダーのコミュニケーション術

もっと絞れる AWSコスト超削減術

優秀な人材が求める３つのこと 退職を前提とした組織運営と人材マネジメント

Web3の未解決問題

ロボット未来予測2033

日経BOOKプラスの新着記事

「お前、もう帰れ！」東大卒の開発者が料亭で叱られた

はじめに：『金利 「時間の価格」の物語』

マッキンゼー調査で判明 日本企業のM＆Aに求められる戦略

新社会人が読んでおくべきおすすめのビジネス書 記事まとめ

『「キーエンス思考」×ChatGPT時代の付加価値仕事術』を著者田尻望が熱弁

話題の本 書店別・週間ランキング（2024年4月第3週）

はじめに：『図解 木造住宅トラブルワースト20＋3 「雨漏り事故」「構造事故」の事例から学ぶ原因と対策』

はじめに：『美術館に行く前3時間で学べる 一気読み西洋美術史』

はじめに：『ジオストラテジクス マンガで読む地政学 世界の紛争・対立・協調がわかる』

東京・吉祥寺 街々書林 旅心を刺激する魅惑の本屋さん

日経クロステック Special

What's New

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ

この機能は会員登録（無料）で使えるようになります

フォロー連載・特集

設定

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力

なぜ生成AI時代にAPI管理が重要か？分断されたデータを自動的にまとめて活用

CIO養成講座【第35期】

人手不足を乗り越える日本の産業界成長のシナリオ2024

ソフトバンクもう一つの顔　成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く　改革リーダーのコミュニケーション術

もっと絞れる　AWSコスト超削減術

優秀な人材が求める３つのこと　退職を前提とした組織運営と人材マネジメント

はじめに：『金利　「時間の価格」の物語』

マッキンゼー調査で判明　日本企業のM＆Aに求められる戦略

新社会人が読んでおくべきおすすめのビジネス書　記事まとめ

話題の本　書店別・週間ランキング（2024年4月第3週）

はじめに：『図解木造住宅トラブルワースト20＋3　「雨漏り事故」「構造事故」の事例から学ぶ原因と対策』

はじめに：『美術館に行く前3時間で学べる　一気読み西洋美術史』

はじめに：『ジオストラテジクス　マンガで読む地政学　世界の紛争・対立・協調がわかる』

東京・吉祥寺　街々書林　旅心を刺激する魅惑の本屋さん