世界一のコスト・パフォーマンスで世界ランキング第3位に入るスーパーコンピュータを,文字通り「手作りで」組み上げたバージニア工科大学。前回はそのデータセンタ運用の責任者,Kevin Shinpaugh副所長のインタビューをお届けした。(記事へ

Kevin Shinpaugh氏と安東孝二氏
各種CPUのベンチマーク・テスト結果を見ながら議論が弾むバージニア工科大学Kevin Shinpaughデータ・センター副所長と東京大学情報基盤センター情報メディア教育研究部門の安東孝二助手
 そのインタビューを終えるころ,東京大学の「教育用計算機システム」としてiMac 1149台を導入した実動部隊の一人,東京大学情報基盤センター情報メディア教育研究部門の安東孝二助手に対話に加わっていただいた。いずれも研究者,学生相手に大規模なコンピュータ設備を提供している立場だけに,話ははずんだ。

安東:私のバックグラウンドを説明しなければなりませんね。工学部で原子力工学を学び,今は東京大学の情報基盤センターに務めています。スーパーコンピュータは原子力工学科にいるころ,触れる機会がありました。CM-200というマシンはご存じですか? Thinking Machine社のConnection Machine。あるいはCrayのでっかいマシンを使って計算を楽しんでいました。いろんなプラットフォーム上でそれぞれの特性を引き出のが楽しみでした。

 最近は,スーパーコンピュータのプラットフォームが限られていますから,バージニア工科大学のこのような試みで,プラットフォームが広がるというのはとても素晴らしいことだと感じています。

 G5とMac OS Xの組み合わせはとても強力で,エンジニアリング分野に応用するとUNIXのパワーがフルに享受できますからすごいことができます。でも,日本のユーザはMacintoshは簡単な道具としてしか見ていないので,なかなか大きな挑戦ができません。そういう意味でKevinさんの大学の挑戦は,私たちに大きな勇気を与えてくれました。

Kevin Shinpaugh(以下KS):では,私も自己紹介させてください。私は元々宇宙工学を専攻していました。86年ごろにはギガバイト・クラスのデータをこね繰り回すという仕事をたくさんしました。そのころは20メガフロップスのコンピュータでしたね。

安東:G5を1100台つなげた今回のシステムではどんなソフトウエアを開発したのでしょうか? 

KS:重要なソフトウエアの一つがMVAPICHですね。オハイオ州立大学のDhabaleswar Panda博士が書いたLinux向けのソフトをSystem X向けに書き直しました。このソフトはMac OS Xの上で動くメモリマネジャです。このソフトがInfiniBandのノード間の通信を高速化してくれる役割を担っています。

 Mac OS Xは一般的なデスクトップ・マシンとして最適化された設計になっていますが,それだけではスーパーコンピュータとしてのパワーを十分に発揮することはできません。そうしたギャップを埋めるためのソフトということができるでしょう。

 テキサス大学の後藤和茂さんが演算ライブラリのBLASTをPowerPC G5用に最適化してくれました。もう一つ,忘れてはならないのが,フェール・セーフを実現する「Deja Vu」ですね。チーフ・アーキテクトのSrinidhi Varadarajan博士が書いたのですが,このソフトが常にノードを監視してくれているおかげで,どれか一つのノードがダウンしても,それまでの計算結果は失わずに瞬時に別のノードに引き継がれます。

 ソフトは完全にトランスペアレントに動いてくれます。プログラムがFORTRANで書かれていようとも,Cで書かれていようとも,問題ありません。各ノードが分散処理をどう行っているかを分析し,どこかのノードがおかしくなったときには,1000分の1秒で他のノードに割り振ってくれます。困ったことに,このDeja Vuという名称は既にある会社が登録商標にしていて,名前変更を迫られています(笑)。

安東:素晴らしい取り組みですね。ところで,私も大学に1149台のiMacを入れた関係者の一人としてお伺いしたいのですが,アップルのハードウエアは信頼性高いですか?

KS:はい。私はかなり良いという印象です。入荷したG5を一台一台火を入れて試し,パスしたものだけをラックに積み上げていったのですが,1台だけ電源に支障があったきりでしたから。

安東:一般的にたくさんのCPUをずらりと並べたスーパーコンピュータは,常にどれかのノードが壊れてしまい,なかなか思い通りに動いてくれないものですよね。全く同一のスーパーコンピュータを2台おいてバックアップ用に一台を待機させておくということもよくあるわけですが。

KS:我々のSystem Xは先ほどお話しした通り,Deja Vuが不良ノードを切り離し,即座に別ノードに振り替えるという作業を行っていますから,とても安定して動いていますよ。

 信頼性の面で,一つ面白い話があります。システムが動き始めて最初の段階で,どうしても計算結果が合わないということがありました。よくよく調べてみるとCPUクロック2GHzで動いているCPUの足並みがそろわないことが原因でした。問題を起こしているCPUを取り換えて,問題は解決しました。何週間も止めずに稼働し,とても安定しています。

磁気嵐の直撃でメモリーとハード・ディスクにトラブル発生

 一回だけ不思議なことがありました。2003年10月28日だったかな? 太陽フレアーが強く発生した影響で地球を巨大な磁気嵐が襲ったことがありましたよね。あれは,さまざまな問題を引き起こしました。ビデオ・メモリー,ハード・ディスク・ドライブなどが異常動作しました。結局20ユニット程度は取り換えました。(アパラチア山脈の)比較的高い山の中腹にあるビルディングはそういう影響を受ける弱点があるということでしょうか。

 そんな不思議な事故があった以外は全く問題なく動いています。ハードはとても信頼にたるものだと思います。あ,そうそう,ラックに積む作業をしているときに,手違いで1台落っことしてしまいました。電源を入れて試したら,問題なく動いていました。なかなか丈夫だなぁって(笑)。でも,大事をとって,そのユニットは取り換えましたけど。

安東:日本ではまだあまり情報がないのですが,InfiniBandやMellanoxのスイッチはうまく動いていますか?

KS:はい,快調です。24台のMellanoxのInfiniBandスイッチが動いていますが,サチるようなことはありません。十分に余裕を持ってトラフィックは流れています。Mellanoxの技術者は我々のために最適化したドライバを書いてくれたのですが,たったの2週間で完成させてくれましたよ。素晴らしい技術者でした。

安東:え~,たったの2週間? それはまたすごい。InfiniBandの話は聞いていましたが,日本のユーザーは本当にちゃんと動くのかって眉唾で見てました。実際に実証結果が出たのですから,これはいい情報ですね。しかも,極めて低価格でシステムが構築できる。バイオやナノテクの研究者にとっては朗報です。

デスクトップ機とスーパーコンピュータの間を埋めるシステムが簡単に

KS:そうです。ここまで大規模なものでなくても,数10台のG5をクラスタリングすればずいぶん高性能の計算機ができます。NASAは地震シミュレーション,プラズマなどの研究に我々のスーパーコンピュータを利用していますが,研究の規模を拡大させるのに大いに貢献できるということを認識し始めています。

安東:東大でももちろんスーパーコンピュータを持っていますが,研究者が誰でも自由に使うというわけにはいきません。多くの研究者は実験データの整理などはWindowsパソコンでこつこつと仕事をしています。何テラフロップスも出せるハイエンド・スパコンとデスクトップ・パソコンの間を埋める中規模のスパコンがあればそうした不自由さはかなり解消されると思います。

KS:我々はSGIの16CPUをクラスタリングしたシステム,そしてOpteronベースの200ノード・クラスタ・マシンも持っています。一般的な研究にはそちらを使います。特にハイエンドの計算にはSystem Xをブン回す。そういう意味では,うちにはさまざまなレイヤーのマシンがありますから,用途に応じて使い分けられる便利な環境が整っていると言えますね。

安東:OpeteronとG5,どちらが本当に実力を備えているのでしょうか?

KS:我々は,それについては実測のベンチマーク・データを持っています。12台のPowerMac G5をInfiniBandでつないだものが200ノードのOpteronクラスタ・システムのちょうど半分の性能をたたき出しました。

安東:それ,本当ですか?! だったら,これ使えますねえ。

KS:はい,我々は実際に組み上げて実測したベンチマーク・データを持っています。こうした実験結果を見ると,小規模から大規模に至るまで,クラスタリングしたHPC(High Performance Computing)システムを手に入れたいのなら,現時点で費用対効果の高いシステムを作るにはG5が最も良いと言えますね。

安東:バージニア工科大学のこの取り組みは,とても目のつけ所が良いですね。願わくば,開発したソフト群がオープンソースになると素晴らしいのですが,そういう考えはお持ちですか?

KS:はい,Mac OS XのInfiniBandドライバはオープンソースにしています。しかし,オープンソースにするには,フィードバックを受け入れる体制作り,皆さんに使いやすいようにAPIを整理するなど,さらにやらなければならないことがたくさんあります。徐々に対応していくしかないでしょう。

 ただ,我々としてはできるだけたくさんの情報を公開していくつもりです。プロジェクトを開始してから完了するまでのプロセスを詳述した“How-To”キットなども用意します。キットにはDeja Vuソフトウエアがバンドルされています。これは有料ですが。

 確か,バークレイのどこかの研究所がMVAPICHよりも高性能のインタフェース・ライブラリを開発したと聞いています。それを使えば,さらに20%速くなりますよ。

安東:日本ではグリッド・コンピューティングに関心が集まっています。私としては,Xgrid(米Apple Computerがベータ版を配付している。関連記事)に興味があるのですが。

KS:別の学部ですが500台のG4をXgridでつないでますよ。

安東:おお,既にやってますね。では我々は1000台のiMacをXgridで連携させてしまいましょうか(笑)。Xgridが良いのは,本当に簡単にセットアップでき,運用管理も簡単であるところですね。コンピュータおたくでなくても,導入ができるというのは,バイオ科学者などがHPCを使いたいといったときにもってこいなわけです。

KS:応用分野によってはXgridなどを使ったグリッド・コンピューティングの方が向いているものもあります。ある研究者は人間の歩行について研究しているのですが,Xgridを使って研究を進めていますよ。歩行に障害を持つ子供たちの治療,あるいは補助のために筋肉の動きをトレースするといった研究ですが,こういう分野では同時並行に機能する筋肉の動きを見ていかなければなりません。並列コンピューティングはこういう分野に効果的です。

安東:System Xは今,Xserveにアップグレードしようという段階なのですね。

KS:Xserve16台をラック・マウントに入れた試作機でさまざまな実験をしてきました。このリプレースでこれまでのスペースの2/3が空きますから,ここにまた何か導入できます。試作機で試しましたが,32台か64台のXserveでスーパーコンピュータの世界ランキング「Top500」に入っちゃいますよ。

安東:おお,安くて,薄くて,最高のパフォーマンスということですね。言うことないですね。面白い。研究室の隅っこに世界一速いMathematica(高等数学用のプログラム)マシンを置いておけますね(笑)。

■インタビューを終えて
 米国では手持ちのパソコンを一日,体育館のような大きなスペースに集め,HPCに挑戦しようというプロジェクトがたくさんある。宇宙空間にまで達する手作りロケットを飛ばすアマチュア団体などのマインドと共通する気分がある。

 そんなノリで演算性能が世界三番目にランクインするスパコンを作っちゃえと,自分たちで設計図を引き,制御ソフトを書き,学生たちがまさに手弁当で作り上げたのが,バージニア工科大学のSystem X(愛称:Big Mac)だ。

 チーフ・アーキテクトであるSrinidhi Varadarajan博士がフェール・セーフのコントロール・プログラムを書き,ごくごく少人数の参加者が,システム要件を決め,直接発注し,自分たちの手でテストし,組み上げ,配線する。それまで,存在すら知られていなかったPower Mac G5の発表後,たった18日後に発注をかけ,その2カ月後には稼働開始させるという神業とも思えるスケジュールが順調にこなせたのは,そうしたスリムな組織が本当に歯車が噛みあった仕事を進めたからだろう。

 安東助手の飛び入り後,話は冷却水のパイプをどう引き込んだか,空調の自然対流をどのようにして起こさせるよう設計したかといった,まさに微細な事柄にまで,分け入った。日夜,運用手法に頭を悩ませるもの同士の共感だったのだろう。

 安東氏はオープンソースへの取り組みを示唆したが,その前に実務者レベルの交流は既に始まった。こうした顔合わせが実現したことで,ノウハウが研究者の間で流通する。やがてHPC環境は,すそ野を広げ,急激に進歩していくことになるだろう。

(林 伸夫=編集委員室 主任編集委員)