2010年7月12日にゆうちょ銀行で起こったシステム障害の原因は、2重化していたディスク装置のうち、本番系が故障した際に待機系に切り替わらなかったためであることが分かった。本番系のディスクが故障したとしても、待機系への切り替えに成功していれば、ダウンは起きないはずだった。

 ゆうちょ銀はシステム障害が起こった理由を公表していないが、本誌の独自取材で判明した。ディスク装置が待機系に切り替わらなかった理由は調査中だ。ディスク装置は日本IBM製である。

 今回のシステム障害によって、同行のすべてのATM約2万6000台で多くの取引ができなくなった。完全復旧までに要した時間は約17時間半。ゆうちょ銀によると、最大1万件程度の取引ができなかった可能性があるという。

 ディスク装置の故障の影響が、これだけの規模に広がった理由は、障害が二つのシステムで連鎖して起こったことによる()。

図●ゆうちょ銀行の貯金システムの構成と、システム障害の発生部分
図●ゆうちょ銀行の貯金システムの構成と、システム障害の発生部分
[画像のクリックで拡大表示]

 一つめのシステムは「全銀接続用システム」だ。故障したディスク装置は、同システムのメインフレームにつながっていた。ディスク装置が故障したことで、メインフレームが正常に動作できなくなった。

 障害を起こした二つめのシステムは「対外系システム」だ。本来であれば、全銀接続用システムがダウンして全銀システムを介した振り込み処理ができなくなったとしても、ゆうちょ銀のキャッシュカードを使った他行ATMでの預け入れや払い戻しなどはできるはずだった。対外系システムからカード決済総合ネットワーク「CAFIS」を介して他行のATMと接続しているからだ。

 ところが今回は、全銀接続用システムがダウンしてから約1時間後に、対外系システムにも障害が飛び火した。全銀接続用システムが出した大量のエラーメッセージなどが滞留し、対外系システムへの負荷が高まった結果、対外系システムもダウンした。このため、CAFISを介した預け入れと払い戻しもできなくなった。

 ディスク装置の故障や、待機系システムへの切り替え失敗を防ぐのが難しかったとしても、連鎖して起こった対外系システムの障害については、運用上の対処で防ぐことができた可能性がある。大規模システムにおける“火事場”の運用力の重要性が、改めて問われる。