2012年8月7日、東京証券取引所で派生商品(デリバティブ)の全銘柄が1時間半にわたり取引できなくなった。デリバティブ取引システム「Tdex+」と基幹ネットワーク「arrownet」をつなぐレイヤー3スイッチの故障が引き金となった。同スイッチはアラクサラネットワークス製で、Tdex+の構築・保守を担う日立製作所が同システムと共に導入した。

 スイッチは2台のホットスタンバイ構成を採っている。この日は午前9時18分に本番系スイッチが故障した。にもかかわらず、待機系に自動で切り替わらなかった。その結果、4分後の9時22分に取引の約定ができない状態となった。東証は9時46分に切り替え失敗に気付き、約30分後の10時17分に手動切り替えを実施。10時55分に取引を再開した。切り替え失敗の原因は、8月22日時点で「調査中」(東証広報)だ。

 東証は2月にもシステム障害を起こしており、この時も自動切り替えに失敗している。実は東証に限らず、自動切り替えの失敗がシステム障害につながるケースは意外に多い()。

表●待機系への切り替えに失敗した主なシステム障害の例
[画像のクリックで拡大表示]

 システムを止めずに、本番系から待機系に自動で切り替えるのは容易なことではない。本番系は自身に異常が起こったことを自ら検知し、待機系にすぐさま知らせる必要がある。待機系はその情報を確実につかみ、仕掛かり中の処理を含め、本番系の役割を丸ごと引き継がなければならない。これらの処理を着実かつ速やかに進めるには、本番系と待機系のハードウエアとOSやミドルウエアの密接な連携が欠かせない。

 従って、社会インフラを担うシステムを構築する場合は、自動切り替えの仕組みを採用すると同時に、その失敗に備えて手動切り替えの対策を用意するのが一般的である。

 東証も2月の障害を踏まえ、自動切り替えの失敗を含む障害発生時の連絡体制や対応策の判断基準、作業手順などを見直していた。切り替え失敗に気付いた30分後に手動切り替えに臨めたのは、その成果ともいえる。

 切り替え失敗のリスクは、冗長化構成を採用したシステムを抱える全ての企業にとって、他人事ではない。