ここ最近、大規模なシステム障害が相次いでいるが、疑問に思うことがある。「なぜバックアップのシステムが働かないのか」という点だ。そこで、筆者は日経コンピュータで特集を企画し、20社近くを取材した。その結果、各企業は様々な想定外に見舞われ、システム障害が表面化し、さらにバックアップが無力化していたことが分かった。

 今回、特集を執筆するにあたって、神戸新聞社、全日本空輸(ANA)、NTT地域会社、大垣共立銀行の4社を中心に取材をした。各社とも、ここ約半年の間に大きな障害に直面しており、バックアップのシステムも保有していた。しかし、バックアップが動くことはなかった。

 その理由は、大きく3つに分けられる。1つめはバックアップが効かない「単一障害ポイント」でトラブルが発生したこと(神戸新聞社、大垣共立銀行)。2つめがバックアップ側にも問題がコピーされてしまったこと(NTT地域会社)。そして3つめがバックアップに切り替える判断ができなかったこと(ANA)--である。

 このように様々な想定外が発生しその対応も困難を極める。この詳細は特集記事に譲るが、今回の取材で痛感したのはやはり“人”の重要さだ。障害へと向かうシステムを救い出せるのは、ITサービスという舞台を支えるシステム部員やベンダーの担当者ではないだろうか。システムの「ブラックボックス化」や「データ量の増大」、「24時間の連続稼働」が同時に進む中、より肝要になっている。

 例えば、東京海上日動火災保険のシステムを開発・運用する東京海上日動システムズは、運用人員のモチベーション向上に取り組んだ。同社は千葉にあるサブのセンターを「バックアップ」ではなく、「2つめのセンター」と呼ぶ。

 実際の運用もそれを体現している。平日に東京で動かしているメインのシステムを土曜の深夜に千葉に切り替え、日曜深夜に東京へと切り戻す。東京海上日動システムズの島田洋之常務取締役は「普段は動いていないシステムを運用しろと言われても、そのセンターのスタッフはやる気を保てないだろう」と説明する。もちろん週2度の切り替えによって、バックアップの確度を保っているという側面もある。

 神戸新聞社は自社のシステムがまったくダメな場合の“最終手段”を持っており、その維持に努めている。同じ地方新聞の京都新聞社と制作システムの融通で協定を結んでおり、9月の障害時にはそれを発動した。大部分は京都新聞の記事になったが、両社の連携によって「神戸新聞」の題字で夕刊と翌日朝刊の発行にこぎ着けた(関連記事)。

 こうした連携は一朝一夕には難しい。神戸新聞社編集局の渡辺昭義局次長兼編集センター長は「普段から記事の交換や組合活動など、社員間での交流があった。だから首尾良く連携できたのだろう。これがいきなり『システムを使わせてください』と来られてもできないのではないか」と当時を振り返る。

 ANAは人の配置を見直す。5月末の障害を受け、外部コンサルタントを交えた検証タスクフォースを置いた。その結果として導き出された1つの解が、システム全体を見渡す横断組織の設置である。

 障害が発生した国内線システムは、複数社のハードやソフトウエアを組み合わせたマルチベンダーで構築し運用していたが、障害時にANAも含めて各ベンダーなど関係者が適切に連携していたとは言い難い。もちろんマルチベンダーの流れを止めることはできない。このためANAは中長期的に組織の見直しに乗り出した(関連記事)。

 このほか、NTT地域会社のIP電話トラブルは、委託先である子会社で発生した(関連記事)。作業員がコマンドを打ち間違えたのが原因である。これによってハードディスクの内容が論理的に破壊され、バックアップ側にもコピーされてしまった。子会社は対策として入力コマンドを複数の作業員が目視でチェックする体制を作った。

 大垣共立銀行のトラブルは、コンビニATMの運営について再委託を請け負った大手ベンダーで発生したもの。ベンダーの開発と運用部隊の情報共有の甘さによって、障害復旧に時間がかかってしまった。データベースの検索速度を上げる工夫が運用部隊に伝わっていなかったのだ。そこで、開発部隊のノウハウを全社に横展開することを即決している。

 この2社のようにシステムを委託している場合、自社だけでは解決できない。ただ、委託先の人員や体制について質問してみることで改善できる場合があるだろう。

 もちろん、きちんとしたバックアップ・システムを構築するのも重要だ。ストレージやサーバーの災害対策機能は日々進化しており、データセンター側の設備も充実してきた。また、訓練と見直しも忘れてはならない。「カットオーバーしてからバックアップを試していない」というユーザー企業も少なからずいた。

 特集記事は、日経コンピュータの10月29日号に「障害発生!被害拡大と復旧の分かれ目」としてまとめた。対策としては、「関係者で情報を共有する」「適切な判断力を身につける」「リカバリを錆びつかせない」「競合企業と手を結ぶ」の4ポイントを挙げた。興味のある方は読んでいただければと思う。