富士通研究所は2012年4月5日、ビッグデータを高速処理する「適応的データ局所化」技術を発表した。ディスク上のデータ配置を最適化し、I/Oを削減することで、大量データをリアルタイムに処理できるという。2013年度中の製品・サービスへの適用を目指す。

 適応的データ局所化では、以下の3ステップでディスク上のデータを再配置する。(1)データへのアクセス履歴を記録、(2)それに基づいて最適な配置を計算し、(3)動的にデータを再配置する。「ディスク上のデータはランダムに配置されているため、そのままではI/Oが頻発する。アクセス順序を踏まえてデータをグループ化して配置し直すことで、効率的にデータを読み込めるようになる」(富士通研究所 クラウドコンピューティング研究センターの土屋哲 主管研究員)。

 再配置の動作はオーバーヘッドが少ないので、実運用中に実行できる。「アクセス履歴に基づいてデータを再配置するので、利用に当たって業務の知識も要らない」(土屋研究員)。

 適応的データ局所化は、ビッグデータ処理に求められる「大量」と「即応性」という二つの特性を同時に満たそうというコンセプト。大量データのバッチ処理については、Hadoopなどの分散ミドルウエアが適用されることが増えてきた。ただし、リアルタイムに入ってきたデータとマッチングしたいという用途には向かない。

 こうした即応性へのニーズは、複合イベント処理(CEP)製品などで満たせる。ただし、メモリーベースの処理であるため、大量のデータを取り扱うことは不得手。ディスクベースのリアルタイム処理であれば、大量と即応性を同時に実現できるという考えだ。