写真1 システム障害を報告し謝罪するANAの幹部
写真1 システム障害を報告し謝罪するANAの幹部
[画像のクリックで拡大表示]
写真2 パネルを使って説明するANAの佐藤執行役員
写真2 パネルを使って説明するANAの佐藤執行役員
[画像のクリックで拡大表示]

 全日本空輸(ANA)は6月13日夕方、国土交通省で記者会見を開き、5月末に国内線システムで発生させた大規模障害の原因について報告した。会見に臨んだANAの長瀬眞(ながせ・しん)専務取締役執行役員は「障害発生からログの分析を続けてきた。このような事態が起こらぬよう再発の防止に努め、信頼の回復に努めたい」と述べ、IT推進室長の佐藤透執行役員が詳細を説明していった(写真1)。

 障害が起こったのは、旅客の予約・搭乗手続きや手荷物管理をするチェックイン・システムのうち国内部分。27日未明から朝にかけて処理能力の低下が深刻となり、羽田空港にはチェックインを待つ乗客であふれかえった。結局、羽田では午後3時頃から同6時まで発便をすべて欠航させる羽目に陥った。

 原因を作ったのは、チェックイン端末をつなぐためのネットワーク機器だった。障害前日の26日午前9時。朝から2系統あるうち1系統のスイッチが障害の兆候を示し始め、通信が断続的に途絶え始めた。機器内のメモリー部分が物理的に故障したという。これは「メーカーによると同様の問題は世界で4例しかない。スイッチが完全にダウンしなかったため対処が遅れた」(佐藤執行役員)という。

 27日未明になるとスイッチの状況が悪化し、通信がほとんどできない状態となった。この影響を受け、アプリケーションが動いているメインフレームとの間にある2つのゲートウエイ機器に異常が起こった。具体的には、メインフレーム側にある「ICS」、スイッチ側にある「ATCP」と呼ぶゲートウエイだ(写真2)。ATCPが高負荷に陥り、ICSと通信ができない状態となった。つまりメインフレームとの通信ができなくなった。

 これらゲートウエイにあった問題も障害に追い打ちをかけた。具体的には、ICSにあったプログラムのバグと、ATCPの能力不足だ。ICSは5月にシステムを更新した際に設定を誤り、不正なデータを棄却できなくなりダウンした。6台中新しく入れた3台がこの状態だった。また、ICS側でATCPの負荷状態を判断するプログラムにも問題があったという。

 ANAは問題を受け、(1)監視要員の増強、(2)スイッチのメモリー障害を自動で検知する機能の搭載、(3)スイッチの通信経路を2重化から4重化へ強化、(4)ICSのプログラム改善、(5)ATCPの能力増強、といった対策を採る。(1)は実施済み、(2)は6月末まで、(3)~(5)は8月末までに導入する。また、長期的な対策として、バックアップ・システムや障害時の運用を根本的に見直す。今回のトラブルではバックアップを使っていない。

 ITベンダーなどとの間における責任の所在についてANA側は「検証を重ねており、その後に対応していきたい」(ANAの長瀬専務)としている。スイッチの障害状況の見極めや交換処置が遅れたからだ。スイッチは米シスコ製でNECが納入、ICSは日本ユニシスが開発と機器納入、ATCPは東芝グループが開発と機器納入、をそれぞれ担当した。もっとも「トータルとしてANAサイドの判断が遅かった。どこのメーカーが悪いと言及もしていない」(同)と語り、ANA側に一定の責任があることを認めている。ネットワークの設計や構築はANAのグループ会社が行っている。

 システム障害によって27日に130便が欠航し306便が遅延した。合計で7万9300人の足に影響が出ている。