5月15日夕方から5月16日未明にかけて,NTT東日本のフレッツ・サービスに大規模な障害が発生した。障害が起こったのは,23区を除く東京都,北海道,青森県,岩手県,宮城県,秋田県,山形県,福島県,茨城県,栃木県,群馬県,新潟県,山梨県,長野県の14都道県。Bフレッツが約100万,フレッツ・ADSLが約126万,フレッツ・ISDNが約13万の合計約239万契約のユーザーに影響が出た。NTT東日本によると,今回のような大規模なIP網の障害は過去に例がないという。

障害発生で通信不能,忙しい残業社員の業務が困難に

 まずは今回発生した未曽有のフレッツ・サービス障害について,発生から順を追って見てみよう。下記の表は公開情報を基に作成した,障害発生から復旧,その原因公表までの経緯である。障害発生時刻は5月15日午後6時44分。NTT東日本がニュース・リリースとして障害を公表したのが午後8時である。これを受けて,ITproでは障害発生のニュース記事を作成,公開した。

■関連記事:NTT東のIP網が大規模障害,北海道~甲信越の14都府県で不通
■関連記事:NTT東のフレッツやひかり電話が14都道県で障害,緊急通報も不通に

表●5月15日夕方から16日未明にかけて発生したフレッツ網の障害の経緯
(NTT東日本の資料とニュース・リリースを基に作成)
5月15日 午後6時44分 東京,神奈川,千葉,埼玉以外のエリアにおいて,フレッツ網のアラームが発生
      午後8時 ニュース・リリース第1報:障害が発生している事実を発表
      午後8時19分 故障発生エリアの特定
      午後8時53分 IP伝送装置(ルーター)のリセット開始
      午後9時 ニュース・リリース第2報:影響エリアと,ひかり電話で緊急通報が使えないことを発表
      午後9時8分 東京多摩エリアにおいてIP伝送装置のリセット,復旧確認
      午後9時56分 山形エリアの復旧完了
      午後10時 復旧:全装置のうち25%完了
      午後10時30分 ニュース・リリース第3報:復旧措置としての機器リセットの実施と回復傾向にあることを発表
      午後11時 復旧:全装置のうち50%完了
      午後11時30分 復旧:全装置のうち80%完了
      午後11時30分 ニュース・リリース第4報:7都県が復旧したことを発表
5月16日 午前0時30分 ニュース・リリース第5報:10都県が復旧したことを発表
      午前1時 ニュース・リリース第6報:13都県が復旧したことを発表
      午前1時35分 北海道エリアの復旧完了,全エリアにて障害復旧
      午前1時35分 ニュース・リリース第7報:全面復旧したことを発表
      午前9時30分 ニュース・リリース第8報:原因と今後の対策について発表
      午後2時 NTT東日本が記者会見を開催

 障害が起こったのは午後7時に近い時間。多くの企業にとって「通常業務の時間外」であるが,業務に多大な支障が出た企業もある。多くの拠点で,社内ネットワークへのアクセス回線にBフレッツを利用している大手保険会社のA社は,100カ所近い拠点が通信不能に陥ったという。「保険金不払い問題への対処などもあり,最近,社員の残業時間が増加傾向にあった。今回のトラブルは,その忙しい社員の業務を直撃した」(A社の担当者)。

 A社は,複数の現場から「つながらない」との報告を受け,すぐさま緊急対策本部を設置した。まず,どの拠点の通信に支障が出ているかを把握することにした。ところが,NTT東日本に連絡をとってみても障害の全容はつかめない。「NTT社内も大混乱に陥っている様子だった」(A社の担当者)。そこで,どの拠点との通信が可能かを「ping」コマンドを使って一つひとつ確かめていったという。しかし状況把握は困難を極めた。「さっきまで大丈夫だった拠点が今度はダメといったように,障害範囲が刻々と変わっていった」(同)からだ。はっきりしたことは分からないが,障害は各地域で瞬時に発生したわけではなく徐々に広がっていった感じである。

「午後10時40分に復旧する」との見通しは大きく外れた

 結局,A社が障害の影響範囲を特定できたのは午後8時ごろだったという。NTT東日本が障害発生エリアの特定を終えたのもほぼ同時刻。NTT東日本も,障害の全容をつかむのにかなり苦労したようだ。そこからNTT東日本は,“各地のルーター(IP伝送装置)のリセット”という復旧作業を開始する。午後8時53分のことである。

■関連記事:NTT東のIP網障害,伝送装置リセットで順次回復へ
■関連記事:NTT東のフレッツで330万ユーザーの大規模障害,回復に向かうも原因不明

 この時点でNTT東日本は,復旧作業にどれぐらいの時間がかかるかを正確に把握できていなかったようだ。A社の担当者によると,「復旧は午後10時40分ころになりそうだという連絡を午後9時ころにNTT東日本からもらった」という。しかし実際は,これはまったく見当違いな情報だった。実際に復旧作業が完了したのは,日付の変わった午前1時35分。障害発生から約7時間が経過していた。

■関連記事:NTT東のフレッツ大規模障害が未明に復旧,「ひかり電話の電源チェックを」
■関連記事:NTT東日本のフレッツ/ひかり電話の大規模障害,16日1時35分に全面回復

 復旧作業を優先したためか,午前1時35分の時点では,NTT東日本は障害の原因を完全には特定できていなかった。午前1時35分に公開したニュース・リリース第7報でも,原因は「引き続き,調査中です」と記されているのみだ。16日の午前9時30分に出したニュース・リリース第8報で初めて,故障したルーターの交換を発端として全ルーターのルート情報書き換えが発生し,多くのルーターが処理能力オーバーを引き起こして自律停止したと発表した。

■関連記事:NTT東のIP網障害,全面回復
■関連記事:NTT東のフレッツ大規模障害,原因はルーターの処理能力オーバー

1台のルーター故障が2000台ものルーターの停止を引き起こした


写真●記者会見でトラブルの詳細を発表するNTT東日本
[画像のクリックで拡大表示]
 NTT東日本は,16日午後2時から記者会見を開き,さらに詳しい状況を明らかにした(写真)。障害の発端は,東京都内に設置しているルーターのハード故障に伴うパッケージ交換。その際,故障ルーターをう回する経路の再計算をNTT東日本エリアの全ルーターが始めたところ,次々と処理能力オーバーが発生したという。

 処理能力オーバーを引き起こしたルーターは約2000台。NTT東日本管内には約4000台のルーターがあり,実に半数のルーターが停止してしまったことになる。停止した2000台は古いバージョンのソフトウエアを搭載しており,問題のなかった2000台はバージョンアップを実施して新しいバージョンにしていたという。ソフトウエアの新旧が,明暗を分けたのだ。

■関連記事:【会見速報】NTT東がフレッツの大規模障害で謝罪会見,「1台のルーターから全域に一瞬で拡大」
■関連記事:【詳報】NTT東がフレッツ障害の原因報告,旧ソフト搭載のルーターが経路再計算しきれず

 ただNTT東日本としても,2000台のルーターが停止に追い込まれた詳細なメカニズムまでは把握していないようで,引き続き原因を調べるとしている。利用ユーザーとしても,たった1台のルーターのハードウエア交換で2000台のルーターが止まったと言われても,「はいそうですか」とは,にわかに納得しがたいものがある。

 ある大手ISPの担当者は,詳しい状況が分からずあくまでも一般論と前置きしたうえで,「1台のルーター障害で全ルーターのルート情報書き換えが起こることはあり得る。しかし,いっぺんに情報の書き換えが起こらないようネットワーク設計の工夫はできるはず。いったい何が起こったのか」と不思議がる。少なくとも,「発端となったのは要所を占める重要なルーターだった可能性が高く,NTT東日本も想定できなかった事態が発生したのではないか」(同)と推測する。なんらかの複合的な要因が障害の引き金になった可能性がありそうだ。

2010年に光3000万という一大目標にも影響か

 NTT東日本は,2006年9月に3日間連続でIP電話の「ひかり電話」の大規模な障害を起こしており,NTT西日本も2006年10月,やはり3日間に及ぶひかり電話の障害を起こしている。また2006年12月にも,NTT東日本は「ひかり電話ビジネスタイプ」の故障を引き起こした。はっきり言って,NTT東西のIP網/IP電話サービスはトラブル続きである。

■関連記事:NTT東のひかり電話でトラブル,通話集中でつながりにくく
■関連記事:【速報】今度はNTT西日本のひかり電話で障害,9時半ごろからつながりにくい状況
■関連記事:【速報】ひかり電話でまた障害,NTT東のビジネスタイプがつながりにくく

 NTTグループは「2010年に光ファイバを3000万契約」との目標を掲げており,2007年3月末時点のBフレッツ契約数は約608万まで増加した。5月11日の決算発表の席で,NTT持ち株会社の和田紀夫社長は「光サービスの需要は一層喚起されると期待している。むしろ光の展開は早まるのではないか」と述べ,「2010年・光3000万」の達成は可能との見通しを示している。しかし最大7時間にわたり,ひかり電話で110番や119番の緊急電話も使えないような大規模なトラブルが発生したとなると,その楽観論もかすんで見える。

■関連記事:NTTの2006年度決算は増収減益,「2010年・光3000万の旗を降ろすつもりはない」

 はたしてNTTは,IP網/IP電話網の根本的な問題点を究明し,有効な対策を打ち出して頻発するトラブルに終止符を打つことができるのか。光3000万の目標達成に向けて,正念場を迎えたと言えそうだ。