写真●システム部門の責任者である執行役員の佐藤透IT推進室長
写真●システム部門の責任者である執行役員の佐藤透IT推進室長
[画像のクリックで拡大表示]

 5月27日に発生した全日空のシステム障害。国内線130便が欠航し、464便が30分以上遅延するなど約7万人に影響が生じた。終日混乱が生じ、約4億5000万円もの減収になる大規模なシステムトラブルとなった。6月にまとめた再発防止策に5カ月かけて取り組み、10月25日に技術的な対応が完了した。投資額は3億円。

 システム部門の責任者である執行役員の佐藤透IT推進室長が、トラブル発生後初めて語った。詳しくは、日経情報ストラテジー1月号(11月24日発売)に掲載するが、その一部を紹介する。一連の対応で3kg痩せたという佐藤室長だが、ゆっくりと丁寧に当時を振り返るとともに今後の対策を語った。

この数カ月間でどのような改善策に取り組んできたのか。

 障害の原因は、データセンターに置いた2つあるスイッチのうち、1つのスイッチ内にある制御回路のメモリが故障したことによるものだった。国内線旅客系のホストコンピュータと空港内にある端末との間の通信が滞ってしまった。二度と同様の障害が発生しないように、この数カ月間技術的な対応を最優先に取り組んできた。

 まず問題が起きたスイッチを新品に交換するとともに、メモリ障害を自動で検知し正常な通信経路を確保するプログラムを搭載した。ハードウエアの障害を想定し、スイッチ間の通信経路を従来の二重化から四重化に増やした。

 スイッチの先にあるATCP(アナ・ターミナル・コントロール・プロトコル)と呼ぶゲートウエイも、スイッチから異常なデータが大量に流れたため処理しきれなくなった。そこで、24台あるATCPのCPU(中央処理演算装置)を増設し能力を増強した。スイッチの予備機もセンター内に手配し同様の障害が発生しても、今回のようなデータの滞留が起こることはないように取り組んできた。

 ハードウエア面だけでなく、外部のコンサルタントを交えて社内のネットワークや組織運営についてのアセスメントを行った。コンサルタントを交えてアセスメントした結果を基に作成した計画書を、どのような順番でどう進めていくべきかこれから検討していく。運用体制の強化は年度内に始めるなど優先度の高いものから取り組んでいきたい。

一連のシステム障害の対応を振り返り、今であれば別の意思決定をする場面はあったか。

 スイッチを早く交換すべきだった。障害が表面化した前日に予兆はあった。26日朝にスイッチの通信断が発生したものの、自動復旧する程度だった。保守手順により、夜間に対応することを決めた。発生状況がもっとクリティカルであればほかの対応策を検討したかもしれない。現体制では問題が発生した時点で交換するように、対応の手順を変えた。

 当初はスイッチではなく、2日前に刷新作業を進めていたICS(インター・コンピュータ・システム)を疑った。これは、国内線の旅客系のホストコンピュータとATCPを接続するシステムで、5月16日から新システムに入れ替えを開始し、2日前にも3号機を入れ替えた直後だった。情報システム部門にいると、つい最近入れ替えたシステムは何かということに目がいきがちになってしまう。

 もう1つの理由として、スイッチが完全に停止していなかったため、空港の端末がすべて完全に止まっていた訳ではなかった。空港端末のうち何台かは動いているという報告を受けていた。結果として原因究明に時間がかかり、手間取った。これらがなければ、もっと早く対応できたかもしれない。

ITベンダーに対して、要望はあるか。

 悪い情報ほど早くほしい。障害を起こした原因であるスイッチはシスコシステムズ製で、2001年10月にNECが納入したものであった。世界に類似事例が4件しかなかったが、障害が発生した今から振り返ると、他社の事例は非常に貴重な情報になったかもしれない。我々だけだと、情報収集能力は限られてしまう。ITベンダーは、保守運用を通して他社での事例も知っているはずで、情報交換なりアドバイスはしていただきたい。

 開発する時には一生懸命やってくれる。開発が終わって定期保守の段階になると、関係が薄くなってしまう。技術陣も営業担当も終わったプロジェクトとして位置付けられてしまう。我々にとってみれば、システムが稼働し続ける限り運用しなければならず、航空機の運航管理など重要度の高いシステムもある。やはりほかの企業で何が起こっているのか新鮮な情報がほしい。システム刷新を検討する時には、ITベンダーは元気よく来てくれるが、定期保守段階に入った時期にITベンダーとの関係をどうすれば良いのか考えていきたい。NECとも対応策を協議している最中だ。

■変更履歴
本文に一部事実と異なる個所や分かりにくい個所がありましたので,修正しました。修正個所は以下の通りです。お詫びして訂正します。本文は修正済みです。 [2007/10/30]
・「予備機」→「スイッチの予備機」
・「ハードウエア面だけでなく、外部のコンサルタントに監査してもらいこれも終えた。社内のネットワークの健全性やIT部門の組織について意見をもらった。コンサルタントが作成した計画書を、どのような順番でどう進めていくべきかこれから検討していく」→「ハードウエア面だけでなく、外部のコンサルタントを交えて社内のネットワークや組織運営についてのアセスメントを行った。コンサルタントを交えてアセスメントした結果を基に作成した計画書を、どのような順番でどう進めていくべきかこれから検討していく」
・「25日朝に」→「26日朝に」
・「現体制では問題が2度発生した時点で」→「現体制では問題が発生した時点で」