ビッグデータというキーワードをさまざまなメディアで目にするようになり、はや数年が経過した。大手企業を中心に販促活動に生かすなど、活用事例を目にするようになった。

 さらに最近では、ビッグデータをリアルタイムに収集・分析するという一歩進んだ取り組みを試みる企業も出ている。例えば大手回転寿司チェーンのあきんどスシローは2014年7月、「現在レーンに流れるすべての寿司の種類」「顧客がレーンから皿を取り、売り上げが発生した」といった各店舗における状況の変化を、即時に集約する基盤を構築した。各店舗のレーンの状態まできめ細かく把握することで、各店舗が持つ販売ノウハウに気付きやすくする効果を狙っている。

 あきんどスシローのような取り組みは、数年前であれば一部の大手企業だけのものだった。しかし今やパブリッククラウドを活用すれば、初期費用を抑えてすぐにでも取り組める環境が整っている。

 「うちにはそんなに巨大なデータは存在しないから関係ない」と思った方がいるかもしれない。そんなあなたはぜひ、運用するシステムが毎日生成するアクセスログのデータ量を確認してみてほしい。筆者がユーザー企業のIT部門の担当者に話を聞くと、数千~数万件といったペースでログが増えている現場が多い。つまり年間で数百万件以上増える計算となる。以前の蓄積も含めれば、数千万~数億件といった規模に及ぶことが決して珍しくなくなっている。

 このような社内で眠るビッグデータを活用することにより、ビジネスで成果を上げたり、システムの運用を効率化したりできる。システムの運用を例に取ると、障害が発生した後にだけ利用していたサーバーのログを日常的な分析対象にすることで、故障の予測や不正アクセスの早期発見といったことが可能になる。

 そこで本特集では、パブリッククラウドを活用してビッグデータを収集・分析するための基盤を構築する勘所を解説していく。特に、リアルタイムに近いデータを収集・分析できるビッグデータ基盤に焦点を当てる。

 題材とするパブリッククラウドは、ビッグデータ基盤の構築実績が国内でも豊富な「Amazon Web Services(AWS)」とする。AWSについては、仮想マシンの「Amazon Elastic Compute Cloud (EC2)」や、オンラインストレージの「Amazon Simple Storage Service(S3)」などのサービスをご存じかもしれない。

 AWSにはEC2やS3のほかにも、ビッグデータ基盤の構築に役立つサービスが一通りそろっている。例えば、DWHサービスの「Amazon Redshift」、ストリーミングデータの収集・処理サービス「Amazon Kinesis」などである(表1)。

表1●ビッグデータ基盤の構築・運用に利用するAWSの主なサービス
サービス名 概要
Amazon Elastic Compute Cloud (EC2) 仮想マシンの作成サービス
Amazon Simple Storage Service (S3) オンラインストレージサービス。無制限に容量を拡張できる
Amazon Redshift DWHサービス。P(ペタ)バイト級まで容量を拡張できる
Amazon Kinesis 大規模なストリーミングデータをリアルタイムに収集・処理する機能を提供するサービス

 初回は、ユーザー企業がオンプレミスでビッグデータ基盤を構築する際にハードルになっていたことについて解説する。