「システムは停止してはならない」。これは、開発者、ユーザーを問わず、基本認識であろう。計画されている保守作業などによる意図的な停止ではなく、システムトラブルによる停止は許されない、という話だ。

 しかし、残念ながらトラブルによってシステムが停止に至るケースは少なくない。ハードウエアは機械であり、故障をゼロにはできない。ソフトウエアも、人が開発する以上、設計ミスやバグの混入を避けられない。システム運用もしかりで、人為的なミスや想定外の負荷の発生は、どんなに注意していても起きる場合がある。

 それでも、システム停止を限りなくゼロに近づけるため、さまざまな障害対策を施す。ハードウエア障害による停止を防止するための多重化対策は、その典型だろう。

 ITベンダーが提供する運用サービスでは、多重化対策や監視体制を強化し、SLA(サービスレベルアグリーメント)の目標値として99.9%(スリーナイン)や99.99%(フォーナイン)といった数字が提案される。

 もちろんシステムは停止しないほうがよいに決まっている。技術を駆使してスリーナインやフォーナインを実現するのも素晴らしい。だが、それには高額なコストがかかることを忘れてはならない。

 「システム計画や調達の際に、対象システムにはどこまで障害対策が必要なのか」「どれくらいなら止まっても大丈夫なのか」を積極的に議論すべきだ。

 官公庁や自治体、金融機関、鉄道・航空機などの交通機関、大企業の基幹系システムなど、万が一停止すれば広範かつ甚大な被害が発生するシステムがある。これらは「システムを止めない」議論が必須だろう。しかし、大半のシステムは極論すると「システムは止まる」という方向から議論したほうが適切な着地点を見つけられるはずだ。