刻々と発生するデータを素早く集め、元のデータと掛け合わせる。リアルタイムに近いデータの分析を可能にするのが富士通研究所の「ペタバイト級ビッグデータ高速処理技術」だ。分析ソフトとデータ管理ソフトを密に連携し、シーケンシャルアクセスを可能にすることで、高速なデータ処理を実現する。
ビッグデータには「大量」という以外に、「発生頻度が高い」という側面がある。例えばPOSで発生したデータを、刻々と集めて分析できれば、売れ筋商品を見極める精度は高まる。ところが元々のデータ容量が大きいので、処理に数時間かかることもある。そのため、こうした分析処理はある程度データをためて行うバッチ方式に頼らざるを得なかった。
発生頻度が高いデータを即座に分析対象に加えようという技術を、富士通研究所が開発中だ。「ペタバイト級ビッグデータ高速処理技術」の実証実験を進めており、2014年ころの実用化を目指している。この技術を読み解こう。
まとめて読み書きする
新着データを即座に反映するため、バッチ方式ではなく、インクリメンタル方式を採用している。到着したデータをその都度、順に処理して分析結果をアップデート。そこで得られた知見をECサイトの改善などに活用するモデルである(図1)。
インクリメンタル方式では、データが到着するたびに、こまめに再計算する必要がある。対象となるデータ量は膨大だ。例えばECサイトでの商品レコメンドへの適用を考えてみよう。分析処理では、各ユーザーの商品購買履歴に応じて、商品ラインアップからレコメンドするものを選ぶ。新たな購買記録が到着するたびに、購買履歴と商品ラインアップを掛け合わせる必要がある。