ビッグデータとして、アプリケーションやミドルウエアのログを収集する。これが、ビッグデータ分析システムの最初の関門だ。漏れなく楽に収集したエンジニアの取り組みを紹介しよう。

 ログ収集は意外と難しい―。ビッグデータ分析システムに取り組んだITエンジニアの多くがこのように指摘する。なぜ難しいのか。理由は大きく二つある(図1)。

図1●データ収集の課題に対するエンジニアの取り組み
図1●データ収集の課題に対するエンジニアの取り組み
[画像のクリックで拡大表示]

 一つは、「切れ目なく発生するデータ」だからだ。1台のサーバーだけを考えても、ログはいつ発生するのか分からず、1日の量は変化しやすい。ログファイルから読み取る場合、一度読み取ったデータを2回読んではいけないし、ファイルサイズがあふれる前に読み取らねばならない。それが複数サーバーになることを想定すれば、ログを漏れなく収集するというのは、簡単ではないことがお分かりいただけるだろう。