日立製作所は2011年9月27日、国立遺伝学研究所と協力して、ゲノムデータの大量処理に、オープンソースソフトウエアの分散バッチ処理ソフト「Hadoop」を適用する検証を行ったと発表した。Hadoopを導入することで、従来システムと同等の処理性能を実現しながら、コストを5分の1にまで削減できたとしている。

 日立が検証したのは、ゲノム研究で使用する「DNAシーケンサー」と呼ぶ装置が生成する大量のデータを解析するアプリケーションのシステム基盤に、Hadoopを適用するというシナリオ。DNAシーケンサーとは、化学処理したDNAサンプルに対して様々な分析処理を行うことで、DNAの塩基配列を自動的に読み取るための装置である。1回の計測で約60億個(約1.8テラバイト)のデータを生成するため、1年間に生成するデータ量はペタバイト級(1ペタバイトは1000テラバイト)にも達するという。

 今回の検証では、現在遺伝研が使用しているゲノム解析フローを、ブレードサーバー10台で構築したHadoop検証環境に移植した。ゲノム解析プログラムには、「Burrows-Wheeler Aligner(BWA)」を使用している。Hadoopを使うことで、現在使用するサーバーよりも安価なブレードサーバーにアプリケーションを移植することが可能になり、コストを5分の1に削減できたという。