写真1●GeNAS用のデータ保存システム
写真1●GeNAS用のデータ保存システム
[画像のクリックで拡大表示]
写真2●理化学研究所ライフサイエンス技術基盤研究センター機能性ゲノム解析部門ゲノムネットワーク解析支援施設の近藤直人施設長
写真2●理化学研究所ライフサイエンス技術基盤研究センター機能性ゲノム解析部門ゲノムネットワーク解析支援施設の近藤直人施設長
[画像のクリックで拡大表示]

 独立行政法人の理化学研究所は2013年7月10日、ゲノム解析を支えるシステムを報道陣に公開した。理研では次世代シーケンサー(遺伝子解析装置)の導入で、飛躍的にデータ量が増えている。こうした「ビッグデータ」を保存するためのシステムの詳細を解説した。

 理研のライフサイエンス技術基盤研究センターは、大学や製薬会社などに向けて、ゲノムデータの解析を受託するサービス「GeNAS」を運営している。今回は、この4月に稼働を始めたGeNAS用のデータ保存システムを公開した(写真1)。新たに導入したディスクストレージとテープストレージは、それぞれ300TB(テラバイト)と4PB(ぺタバイト)のデータを保存できる。

 このシステムは、日本IBMの分散共有ファイルシステム「General Parallel File System(GPFS)」や階層型ストレージ管理の「Tivoli Storage Manager(TSM)」、エクサのビッグデータ処理技術を活用している。具体的には、次世代シーケンサーから生まれた解析データをGPFSで分割し、ディスクに配置。ディスクに保存したデータに半年間アクセスが無ければ、自動的にテープに移す仕組みだ。テープへの書き込み・読み出しはTSMが担う。

 ライフサイエンス技術基盤研究センター機能性ゲノム解析部門ゲノムネットワーク解析支援施設の近藤直人施設長は、「ゲノム解析のボトルネックは、CPUではなくI/Oの速度にあった」と話す(写真2)。このため、分散共有ファイルシステムの導入を決めたという。「ゲノム解析は長いもので3~4日かかる。それが2日になるというふうに考えてもらえば、インパクトの大きさが分かると思う」(近藤施設長)と、新システムの威力を語った。