「Big Data」はどこにでもある

日経コンピュータ

2010.06.17

　最近、米国で開催されるクラウドコンピューティング関連のカンファレンスや雑誌/ブログ記事などで「Big Data」という単語を目にする機会が増えた。Big Dataとは文字通り「巨大なデータ」という意味だ。いま、「Hadoop」のような新技術に注目が集まるのは、巨大データと格闘する企業が増えているからだという。

　Hadoopについてはそろそろ説明は不要かも知れないが、念のためにおさらいしておこう。Hadoopとは、米グーグルが開発した分散処理ソフト「Google File System（GFS）」と「MapReduce」を模したオープンソースソフトだ。複数台の安価なPCサーバーを連携させ、数十テラ～数ペタバイトに及ぶデータを高速に処理できる（関連記事：ヤフーを変え始めたHadoop）。

　日経コンピュータ2010年4月28日号のレポート記事「リアルタイムに近づくバッチ処理」でも取り上げたが、このHadoopを業務システムで採用する企業が、米国はもちろん日本でも増えている。ヤフーや楽天、クックパッドのようなネット企業だけはない。三菱東京UFJ銀行も2010年4月から、Hadoopを使ったバッチ処理フレームワークの検証を始めた。将来的には口座の「値洗い（時価による再評価）処理」などに、Hadoopを活用する予定だ。

　Hadoopが人気なのは、テラ～ペタバイトクラスのデータ処理を、現実的な（つまりは安価な）コストで実現できるからだ。「オープンソースだから安く済む」のではない。最も節約できるのは恐らくハードウエアコスト、特にストレージコストだろう。Hadoopでは、Hadoopクラスターを構成する各ノード（PCサーバー）の内蔵ディスクにデータを保存する。分散ファイルシステム「Hadoop Distributed File System（HDFS）」がデータを複数のノードに重複して保存するので、信頼性の高いストレージ装置（ディスクアレイ）は必要ない。

　Hadoopと同様に、安価なPCサーバーを連ねることで、巨大なデータを高速に処理できるオープンソースソフトウエアが次々登場している。このコラムでも何度か紹介した「キー・バリュー型データストア」のことで、最近では米Facebookが開発した「Cassandra」が人気だ。

どの企業にもBig Data

　Hadoopやキー・バリュー型データストアを使えば高価なストレージ装置が不要なので、企業は大量のデータを蓄積しやすくなる。使い道がはっきりしていないデータでも、とりあえず貯めておける。データの料理方法は後で考えればいい。

　そうやってデータを蓄積していけば、テラ～ペタバイトクラスのBig Dataは、どんな企業でもあっという間に集まるだろう。Big Dataを料理してどう新しいアイデアを生み出すかは、マーケティング担当者や開発者の腕が問われるところだ。

　Big Dataの料理法の一つとして、最近では「ソーシャルBPM（ビジネス・プロセス・マネジメント）」といった概念も登場し始めた。ソーシャルBPMとは、インスタントメッセンジャーや社内SNS（ソーシャル・ネットワーキング・サービス）のような「ソーシャルソフトウエア」を使って従業員や顧客の行動を可視化し（ログを取り）、それを分析することで業務改善を実現するものだという（詳細は日経コンピュータ6月23日号の「ガートナーレポート」参照）。

　今まで集めていなかったログを収集、分析することで、今までにないアプリケーションを実現できる可能性がある。Big Dataを扱うHadoopやキー・バリュー型データストアは、決して大規模ネットサービス企業だけに関連する技術ではないのだ。

　Big Dataのためにサーバーを買うのが面倒なら、「Amazon S3」のようなストレージサービスに保存するのもいいだろう。Amazon S3に保存したデータは、「Amazon Elastic MapReduce」というサービスとして提供されるHadoopによって分析可能だ。

　米Amazon Web Servicesは先日、Amazon S3にデータをアップロード/ダウンロードするのに、「ハードディスクの物理輸送」を使うというサービス「AWS Import/Export」を正式に開始した。テラ～ペタバイトクラスのデータをAmazon S3に転送するのは、決して不可能ではない。