集めたデータは捨てずに蓄えることが求められ、項目の追加も発生する。分析するときは大量データを高速に取り出すことが必要になる。データ保存がビッグデータの最大の課題。クラウド利用は一つの解決策だ。

 「数千万件あります」「数億件はあるでしょう」「圧縮状態でテラバイトのレベルです」―。ビッグデータの件数やサイズは、従来の企業システムでは扱ったことのない規模にまで膨らむ。

 ビッグデータは「一つひとつはビジネス上意味のないデータ」と定義した。それらをどのように分析するのかは分かっていない。つまり、何に使うか分からないが、後から必要な分析ができるように、すべてのデータを蓄えておく。それがビッグデータ分析システムの要件である。

 ビッグデータを何に蓄えておけばいいだろうか。これは、ビッグデータ分析システムの最大の課題と言っていい。ビッグデータを蓄える器に求められる特性は大きく三つある(図1)。

図1●データ保存の課題に対するエンジニアの取り組み
図1●データ保存の課題に対するエンジニアの取り組み
[画像のクリックで拡大表示]

 一つめは、データ量が増え続けても一つのシステムに保管しておけること。基本的にデータを捨てないのだから、増え続けるのは当然である。二つめは、蓄えたデータを分析する際に必要な特性で、大量データを短時間で取り出せることだ。最後の三つめは、データ項目が追加できること。ログ収集を始めたころは集めなかった項目を、後から取得するのはよくあることだ。その際、ログデータの構造である「スキーマ」を変更することが求められる。