［Hadoopディストリビューション］クロス集計やバッチに使われる

共有ストレージ対応でデータ転送が不要に

手嶋透＝日経SYSTEMS

2012.12.12

出典：日経SYSTEMS 2012年7月号 pp.10-11
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

　Apache Hadoopの用途が、単一データの集計から、クロス集計やバッチ処理へと広がっている。それに伴って、規模が拡大して運用管理が大変になる、データ転送に時間がかかるという新たな課題が浮かび上がってきた。Hadoopディストリビューションは、こうした課題に対処する機能を強化している。

　「2007年に初めてペタバイトクラスのログデータを集計するHadoopシステムを構築した当時、Hadoopは未成熟で制約も多かった。その後開発が進んで完成度が高まり、Hadoopを採用するユーザーは増えた。さらにここにきて、その用途は広がっている」。

　早くからApache Hadoop（以下、Hadoop）システムの構築支援に携わるNTTデータの濵野賢一朗氏（基盤システム事業本部システム基盤サービスビジネスユニット OSSプロフェッショナルサービスシニアエキスパート）は、こう指摘する。

　Hadoopは従来、大量の単一データを短時間で集計したいという要望に応える技術として使われてきた。それが最近は、「複数種類のデータをクロス集計したり、バッチ処理を高速実行したりする用途にもHadoopが使われ始めた」（濵野氏）。それに伴って、新たな課題も浮かび上がってきた（図1）。

図1●Hadoop適用ニーズの広がりと新たな課題

Hadoopは従来、単一データを集計する用途に使われてきた。しかし最近になって、各種データをクロス集計したり、バッチ処理を実行したりする用途でも使われるようになり、「運用管理が大変」「データ転送に時間がかかる」という課題が生じている

[画像のクリックで拡大表示]

クロス集計でサーバー台数が急増

　Hadoopディストリビューションを販売するClouderaのジュセッペ小林氏（代表取締役社長）は、「ユーザーは二つの段階を経て、Hadoopシステムでクロス集計をするようになる」と話す。第1段階では、Hadoopシステムをある単一データの集計用に構築する。その有効性が分かると、第2段階として他の単一データもHadoopシステムで集計し始める。その後、複数種類のデータを組み合わせて分析すると新たな発見があることに気付く。

　そして、社内に散在する各種データをHadoopに集中させて、例えばWebサーバーのアクセスログと基幹システムの売り上げデータをクロス集計するようになる。小林氏は「欧米では既にクロス集計をするユーザーが多数いるが、日本では最近になって、先進ユーザーがクロス集計を始めた」という。

　クロス集計を始めると、データ量や処理量は単一データの集計よりも格段に増える。それに伴って、「分散処理サーバーが数百台から千台以上へと一気に増え、手作業では管理し切れなくなる」（小林氏）。新日鉄ソリューションズの畠山康博氏（技術本部システム研究開発センターシステム基盤技術本部ミドルウェアグループリーダー上席研究員）は、「サーバー台数が増えると、機器障害の頻度も高くなる。障害への対処をいかに効率化するかが重要になる」と指摘する。

　バッチ処理の用途については現在、有効性を探る検証が盛んに行われている。社内のHadoop検証施設を用いてPoC（Proof of Concept）に携わることが多い伊藤忠テクノソリューションズの小林範昭氏（ITエンジニアリング室ミドルウェア技術部 DB技術課課長）は、「売り上げや原価管理といった基幹系あるいは情報系バッチの処理量が想定を超えて増大したユーザーが、解決策としてHadoopに目を付け始めた」と話す。

　Hadoopで基幹系システムのバッチ処理を行う際は、連携元の基幹系システムとHadoopの間でデータ転送が必要になる。具体的にはまず、バッチ処理の元データを外部システムからHadoopに転送。バッチ処理完了後に、処理結果を基幹系システムに戻す。こうしたデータ転送に時間がかかることが課題になる。

この先は日経クロステック Active会員の登録が必要です

会員の方はこちら
ログイン
未登録の方はこちら
会員登録

日経クロステック Activeは、IT／製造／建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録（無料）をお願いいたします。

［Hadoopディストリビューション］クロス集計やバッチに使われる

クロス集計でサーバー台数が急増

この先は日経クロステック Active会員の登録が必要です

このコラムのバックナンバー

データで業務を丸裸にする　プロセスマイニングが登場

早くて安いクラウド勘定系、NTTデータが新規参入組に照準

新電力に参入するならまずチェック、パートナー探し10の鉄則

ITコスト半減も、第三者保守サービスの実力

NTTコミュニケーションズが取り組む営業改革、担当者のスキルを3次元で評価する意図

クロス集計でサーバー台数が急増

この先は日経クロステック Active会員の登録が必要です

編集部イチ押しの資料（ホワイトペーパー）

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

このコラムのバックナンバー

データで業務を丸裸にする プロセスマイニングが登場

早くて安いクラウド勘定系、NTTデータが新規参入組に照準

新電力に参入するならまずチェック、パートナー探し10の鉄則

ITコスト半減も、第三者保守サービスの実力

NTTコミュニケーションズが取り組む営業改革、担当者のスキルを3次元で評価する意図

なぜ生成AI時代にAPI管理が重要か？分断されたデータを自動的にまとめて活用

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力

データで業務を丸裸にする　プロセスマイニングが登場