前回も述べたように、システムダウンの被害を最小限に抑えることができるかどうかは、いかに原因を素早く突き止められるか、1秒でも早く応急処置を施せるか、にかかっている。どんなトラブルが起こりやすいのかをあらかじめ推測できれば、影響の拡大をある程度は抑えられる。

 2009年に注意したいシステムダウンを展望する特集の2回めは、サーバーなどハードウエアの故障を取り上げる。

 世界的な経済危機を受け、企業はコスト削減が喫緊の課題となっている。ITコストも例外ではない。

 無駄な費用があるとすれば削って当然だ。だが、これだけの危機を迎えたいま、これまで必要と考えていたコストの一部を削る必要に迫られる企業も少なくないだろう。ITの面では、サーバーやパソコンの更改サイクルを延長する、といったことが考えられる。

ありえないはずの2台同時故障が現実に

 ここで注意しなければならないのが、老朽化したハードが故障してシステムがダウンする、といったケースだ。形あるものはいつしか壊れる。ハードは古くなるほど故障する確率も高まるのが一般的だ。

 もちろん、ダウンしたら困るシステムは通常、ハードを二重化するなどの故障対策を取ってある。だが、2台同時故障といったことも、実際に起こっている。

 例えば2008年には、ある金融機関が、複数のサーバーとディスク装置をつなぐ「SAN スイッチ」の故障に見舞われた。同一の機種を2台使って二重化構成を組んでいたが、連続して2台とも故障したのである。その結果、サーバーからディスク装置内のデータベースにアクセスできなくなり、システムが全面ダウンした。この企業はシステム構築・維持費用を削減するために、比較的安価な旧型製品を長く使い続けていた。

更改日の10日前に故障

 別の企業では、同一システムでハード故障が2件続き、それぞれが互いに影響を及ぼして、システムが一部ダウンした。まず、システム間の連携処理をつかさどる「ハブ・システム」のサーバーにハード故障が発生した。ただし故障は二重化していた内部部品の一部だけ。サーバー全体の動作に支障はなかった。

 システムは24時間連続稼働する必要があったことから、この企業は特に待機系サーバーに切り替えることもなく、ひとまず故障を抱えたまま運用を続けることにした。月に1回の計画停止の日に、故障した部品を交換する計画を立てた。

 この状態で、ハブ・システムにつながった中継システムのサーバーにメモリー障害が起きた。社外とのシステム接続を担う中継システムのサーバーは二重化していたため、本来ならここでホットスタンバイ中の待機系に切り替わるはずだった。ところが切り替わらない。

 いったん切れたハブ・システムとのコネクションを待機系のサーバーが再度確立する作業が、ハブ・システムのハード故障の影響でうまくいかなかった()。結局、接続の確立を手動で操作することになった。その間、システムの一部の機能がダウンした。

図●ハブ・システムの導入イメージと不具合の発生箇所
図●ハブ・システムの導入イメージと不具合の発生箇所

 故障したハブ・システム用のサーバーと中継システムのサーバーは、どちらも老朽化していたために、故障日のわずか10日後に新機種に入れ替える予定だった。二重化していたとしても、たいていは同時期に導入するのが一般的。寿命も2台同時に訪れることが珍しくない。

 旧型ハードを使い続けるのは即効性のあるコスト削減策だ。ただし、システムダウンのリスクが高まるということも忘れないようにしたい。