1. はじめに

 近年,BigDataと呼ばれるWebコンテンツや各種ログ(アクセスログ,トラフィックログ,センサログ)等,爆発的に増大し続ける大量データの活用に注目が集まっている.特にこれらのBig DataをeコマースにおけるリコメンデーションやBI (Business Intelligence)における顧客分析等の各種ビジネスへ活用する動きが活発化している.大量かつ非構造であるため扱いが難しく従来は死蔵されていたBig Dataに注目が集まる背景には,テラ~ペタバイト級データの管理や高速な分析を可能にする分散処理ソフトウェアの進展がある.

 本論文ではBigDataの処理を実現するシステムを大規模分散処理システムと呼ぶこととする.大規模分散処理システムの中でも,特に大量データをデータベース形式で管理する分散KVS (Key Value Store)はGoogleによる論文 [2] を契機に研究開発が盛んとなり,様々なデータ管理モデルや分散管理方式が提案され商用サービスへの適用が進んできている.

 そこで本論文では,今後進展が予想される商用サービスへの大規模分散処理システムの導入に際して,通常のベンチマークによる性能評価に加え,商用サービス特有の観点に沿った性能評価を実施することが重要であることを示す.

 本論文の構成を以下に示す.2章では分散KVSの特徴とベンチマークによる性能評価について述べる.3章では,分散KVSを商用サービスに適用する場合に特有な性能評価の観点について明らかにする.4章では我々が開発した大規模分散処理基盤CBoCタイプ2 [7]と適用を想定する商用サービスのユースケースについて説明する.5章では,ユースケースに適用するにあたり実施した性能評価の具体例を通じて,3章で示した性能評価の有効性を示し,6章でまとめと今後の課題について述べる.

2. 分散KVSの性能評価

2.1 分散KVSの特徴

 KVSとは,各データ(Value)に対して一意のkeyを付与し,このペアでデータを管理するタイプのデータベースである.特に複数のサーバに分散してデータを管理するものを分散KVSと呼ぶこととする.

 分散KVSでは,従来のRDB(リレーショナルデータベース)と異なり固定的なスキーマを持たないため,シンプルなデータ管理構造を実現することができ,複数サーバを用いて大量データを分散して効率的に管理することが可能となる.また,データの増加に対して,必要に応じてサーバを追加することにより処理性能の向上が可能となるスケールアウト性も備える.代表的な分散KVSとしては,BigTable [2] ,HBase [3] ,Cassandra [4]等が挙げられる.