システムはどれだけ対策をしても止まる。富士フイルムグループはそれを現実として受け入れ、システムの停止がビジネスの停止に直結しないための対策を講じている。狙うのはビジネスの可用性を高めることだ。システムではない。
「万全と考える防止策を徹底しても、システムは止まる」。富士フイルムコンピューターシステムの柴田英樹氏(システム事業部 ITインフラ部 部長)は厳しい口調で言う。柴田氏自身、プライベートクラウドの大規模障害という苦い経験を持つ。
同社は2008年からプライベートクラウドを運用し、富士フイルムグループ各社にITインフラをサービスとして提供している。2012年、プライベートクラウドの一部でシステムが停止し、データ消失まで起こる大規模障害が発生した。
原因はストレージ装置のファームウエアの不具合。ストレージ装置の内部を冗長化するソフトウエアにバグがあり、論理的なデータ書き込み箇所と物理的なデータ書き込み箇所に不整合が発生。該当するストレージ装置を使うプライベートクラウドで、データが読み込めなくなった。
バックアップからデータをリカバリーする作業に延べ3日を費やした。その間、停止したシステムを使う一部の業務が遂行できなくなるなど大きな影響があった。
この大規模障害の経験を経て、柴田氏は「システム停止が起こり得る前提で、ビジネスへの影響を小さくするための対策を講じる方針に替えた」と語る。具体的には「重要度の洗い出し」「業務の代替手段の設計」「ITインフラのシンプル化」「復旧フローの作成」といったものだ(図1)。
その後、代替手段が必要になる大規模障害は発生していないが、現在でもシステムの新規構築、更新時に必ず上記の対策を利用部門と共同で検討し、システムの停止に備えている。