ビッグデータとして、アプリケーションやミドルウエアのログを収集する。これが、ビッグデータ分析システムの最初の関門だ。漏れなく楽に収集したエンジニアの取り組みを紹介しよう。
ログ収集は意外と難しい―。ビッグデータ分析システムに取り組んだITエンジニアの多くがこのように指摘する。なぜ難しいのか。理由は大きく二つある(図1)。
一つは、「切れ目なく発生するデータ」だからだ。1台のサーバーだけを考えても、ログはいつ発生するのか分からず、1日の量は変化しやすい。ログファイルから読み取る場合、一度読み取ったデータを2回読んではいけないし、ファイルサイズがあふれる前に読み取らねばならない。それが複数サーバーになることを想定すれば、ログを漏れなく収集するというのは、簡単ではないことがお分かりいただけるだろう。