今年1年だけを見ても、相次ぎ発生しているシステムの大規模障害。その多くは、サーバーからネットワークまでを2重化するなど、待機系を準備していた。それが機能しなかったのはなぜか。業種が異なる4社が今年遭遇した誤算を明らかにした上で、各社のその後の対策、および待機系の準備に力を入れる企業の施策を基に“想定外”を排除するべく方策を探る。

(市嶋 洋平、小原 忍)

◆“想定外”はここにあった
 神戸新聞、ANA、NTT東西、大垣共立銀行
◆バランスを取って“穴”をふさぐ


【無料】サンプル版を差し上げます 本記事は日経コンピュータ10月29日号からの抜粋です。そのため図や表が一部割愛されていることをあらかじめご了承ください。本「特集1」の全文をお読みいただける【無料】サンプル版を差し上げます。お申込みはこちらでお受けしています。 なお本号のご購入はバックナンバーをご利用ください。

 10月12日の早朝、首都圏のJR東日本や私鉄、地下鉄の駅で自動改札機が作動しないシステム障害が発生した。業務開始に向けて各駅で自動改札を立ち上げたところ、日本信号製の自動改札機だけが起動できなかったためだ。同社製の改札機を利用している駅は合計で662もある。このときは各駅の改札機を開放することで対応。記事執筆時点で鉄道各社の売り上げがどれだけ落ちたかは分からないものの、乗客輸送の大きな混乱は避けられた。

 しかし、今年1年だけを見ても、システム障害が顧客サービスに大きく影響を与えた事例は枚挙に暇がない。例えば5月27日に全日本空輸(ANA)の国内線予約搭乗手続き・荷物管理を担うチェックイン・システムがダウンした際には7万人以上が足止めされた。その4日前の5月23日にNTT東日本・西日本が提供するIP電話サービス「ひかり電話」で東西間の通話が全くできなくなったケースでは、最大で約318万回線が影響を受けた。

 気になるのは、サーバーからネットワークまで至る所を2重化するなど、待機系を準備していたのに大規模障害に発展してしまった事例が多いことだ。重要なシステムに待機系を用意することは、各社とも以前からやっていたはず。それが、なぜ今、立て続けに大規模障害を起こしているのか。どこに“想定外”があったのか。それが、本特集のテーマである。

 以下ではまず、神戸新聞社やANA、NTTグループ、大垣共立銀行といった、業種が異なる4社が今年遭遇した誤算が何だったのかを明らかにする。その上で、この4社のその後の対策、および待機系の準備に力を入れる各ユーザー企業の施策を基に、“想定外”を排除するべく方策を探る。

“想定外”はここにあった

 9月22日土曜日の朝、神戸新聞を「阪神淡路大震災以来の危機」(編集局の渡辺昭義局次長兼編集センター長)が襲った。担当者がいつものように8時に新聞制作システム「ニュー六甲2」を起動したところ、紙面をレイアウトする「組版システム」だけが立ち上がらないのだ。ただし、この時点で情報技術局情報システム部の中川宗彦副部長は、「すぐに復旧できるだろう」と楽観していた。

 開発ベンダーであるNECに連絡するとともに、再起動を試みる。しかし、何度か試したものの一向に立ち上がる気配がない。夕刊の締め切りは正午だ。新聞制作作業を含めると、復旧までの猶予は約2時間しかない。神戸新聞の発行部数は56万部。それだけの読者が待つ夕刊を落とすわけにはいかない。その後、事態を聞きつけた制作システム担当部員が参集し、15人全員での復旧作業が始まる。

 神戸新聞ではシステムを徹底的に2重化している。ディスク装置は2台用意してミラーリング。内部の制御コントローラや電源、送風ファン、キャッシュ・メモリーまで2重化済みだ。だからこそ中川副部長は、早期復旧を信じていた。だが今回、データベース(DB)・ソフトOracle9i Databaseが起動エラーを起こしてしまう。

 もちろん、神戸新聞のシステム部員とNECのシステム・エンジニア(SE)はさまざまな手を打った。12時47分と14時、オプションの変更や初期化パラメータの変更を試みるが失敗。その後、電話で連絡を取っていた日本オラクルのカスタマーサービス本部から、「類似の事例がない。相当深刻な問題かもしれない」との連絡が入る。15時30分、18時とさらに障害からの復帰を試みるが、やはりだめだった。

 結局、「世界に報告例がない不具合」(日本オラクル)が顕在化したのが原因だった。具体的には、(1)統計情報を収集、(2)収集した情報が膨大、(3)Oracleを「shutdown abort」コマンドで強制終了という条件が重なったとき、一時記録領域に不正なデータが残り、次回のOracle起動時にデータ不整合が発生していると判断され停止してしまう()。必ず起きるのではなく、極まれに発生するという。実際、この3条件は神戸新聞における運用で、毎日そろっていた。それでも「約700日間の運用で初めて起きた」(中川副部長)。

図●神戸新聞の組版システムを稼働不能に追い込んだのはDBソフトのバグだった
図●神戸新聞の組版システムを稼働不能に追い込んだのはDBソフトのバグだった
バグは、(1)~(3)の条件がそろった際、まれに再起動できなくなるというもの。ディスクは2 重化していたが、同じ内容を書き込むため同様の状態になっていた。右は23日付同社朝刊から [画像のクリックで拡大表示]

続きは日経コンピュータ10月29日号をお読み下さい。この号のご購入はバックナンバーをご利用ください。