東西NTTのひかり電話の障害だけでなく,IP電話サービスはこれまで数々の障害を起こしてきた。そしてその障害は長時間,広範囲に及びやすい傾向がある。

 長期間に及びやすい理由は次の三つ。(1)機器の性能評価の難しさ,(2)他の機器に障害が波及しやすいこと,(3)サーバー再起動が安易にできないこと,である(図3)。これらを克服しないと,IP電話が固定電話並みの信頼性を勝ち取ることはできない。

図3●IP電話のトラブルが長期化する要因
図3●IP電話のトラブルが長期化する要因
ノウハウの不足や汎用的なサーバー機を組み合わせたシステム構成ならではの障害切り分けの難しさ,さらに緊急通報を担う「ライフライン」として安易なサーバー再起動が難しいことなどがトラブルを長期化している。

性能評価の「考えが甘かった」

 2002年4月に商用IP電話サービス「BBフォン」を開始したソフトバンクBBは,サービスを開始した矢先の同年6月,サービス停止にまで至る障害を引き起こした。「2002 FIFAワールドカップ」のチケット予約電話がBBフォンから東西NTTの加入電話網へと抜ける中継点に集中。呼制御サーバーの過負荷を招いてサービスが断続的に停止する自体に見舞われたのだ。

 この障害はなぜ発生したのか。ソフトバンクBB ネットワーク統括コミュニケーション・ネットワーク本部の佐藤貞弘本部長は「経験不足によるサイジングの失敗」を真っ先に挙げる。サイジングとはサーバー機などのCPU性能やメモリー容量などのリソースについて,加入者数などを基に調整することをいう。当然IP電話サービスは,加入者の増加などを見計らってこれらのリソースを見積もる。だが,実際はこうした見積もりの「はるか前でだめになる。考えが甘かった」と佐藤本部長は当時を振り返る。

 一度,機器の性能を超えてしまうと後は,機器自体を増強するほかに解決策はない。これが障害を長引かせる大きな原因になる。

交換機とは異なる処理能力の見積もり

 2006年10月23日に発生したNTT西日本のひかり電話の障害も,処理性能の見積もりの甘さによって引き起こされたものだ。

 ひかり電話では加入者がかけた電話番号に基づいて,どの呼制御サーバーに接続するかを教える呼処理サーバーが置かれている。この呼処理サーバーの処理能力をNTT西日本では1秒当たり最大140回の問い合わせに対応できると見積もっていた。

 だが10月23日の午前9時35分,見積もりよりも低い毎秒120回を超えたところでサーバーの処理能力を超えてしまい,ふくそうが発生した。この見積もりについてNTT西日本のネットワークオペレーション部の坂下啓輔サービスマネジメント部門長は「見通しが甘かった」と率直に述べる。

 NTT西日本は11月にサーバーを増設する計画で,既に新しいサーバーを設置して動作テストを始めていた。このため25日の早朝に増設できたが,そうでなければもっと障害が長引いたかもしれない。

 2006年9月19日から21日の3日間にわたって障害を引き起こしたNTT東日本も,こうした見積もりの難しさを認める。ネットワーク事業推進本部研究開発センタ開発企画部の西勝部長は,「どのくらいでシステムが機能しなくなるかの判断基準が交換機とIPのサーバーでは違う。そこの経験がわれわれは十分ではない」と語る。

 KDDI技術統轄本部技術開発本部ネットワーク計画部ノードシステム計画グループリーダの舩木滋課長は,処理能力の見積もりについて次のように説明する。「一加入者当たりのトラフィックをやや多めに見積もるなど,ネットワーク設計上のパラメータに手心を加えて余裕を持たせることを心がけている」という。フュージョン・コミュニケーションズ技術本部技術企画部の川上順久技術企画グループリーダーも同意見。「従来の交換機よりもIP電話のシステムでは能力の上限値を低く見積もる」という。ただ,どれくらい低く見積もればいいのかは,経験から学ぶ必要がある。一律何割下げればよい,といった単純なものではない。