米IBMは米国時間2011年7月22日、大規模データ高速スキャン技術の実証実験を実施し、単一システム上で100億ファイルを43分以内でスキャンすることに成功したと発表した。

 同技術により、従来複数のシステムが個別に管理していた大規模データを単一プラットフォームに集約し、データ管理の作業負荷を削減しつつ、より多くの情報を格納することができるとしている。

 今回の実験では、10台の8コアサーバーと総容量6.8T(テラ)バイトの半導体ディスクをクラスタ構成し、GPFS(General Parallel File System)という分散共有ファイルシステムを利用した。GPFSの高度なアルゴリズムにより、データの読み込み、保存、ルール評価といったすべての段階のタスクにおいて全プロセッサコアのフル活用を可能にする。

 IBMは2007年に10億ファイルを3時間以内にスキャンするGPFSの環境を構築したが、今回の実証実験はそれを37倍上回る性能を達成した。同社ストレージプラットフォーム担当バイスプレジデントのDoug Balog氏は、「数ゼタ(Z)バイト規模のデータの課題を克服する新製品への道を切り開くものだ」と述べている。

 米メディアの報道(InfoWorld)によると、実証実験に使ったシステムのデータ読み込み速度は1秒あたり約5Gバイトという。詳細についてはIBMの研究者によるホワイトペーパー(PDF文書)がオンラインで公開されている。

[発表資料へ]