写真1●信号中継装置と信号制御装置のタイムアウト値の設定
写真1●信号中継装置と信号制御装置のタイムアウト値の設定
[画像のクリックで拡大表示]
写真2●KDDI技術統轄本部運用本部長の内田義昭氏
写真2●KDDI技術統轄本部運用本部長の内田義昭氏
[画像のクリックで拡大表示]
写真3●執行役員 新規事業統括本部 新規ビジネス推進本部長の雨宮俊武氏
写真3●執行役員 新規事業統括本部 新規ビジネス推進本部長の雨宮俊武氏
[画像のクリックで拡大表示]

 KDDIは2013年1月16日、2012年12月31日と2013年1月2日に起こった「4G LTEサービス」の通信障害、および1月1日に起こったau ID認証決済システムの障害について、障害発生の経緯と対策について、説明会を開いた。

 4G LTEの通信障害は、まず12月31日の午前0時から午前4時23分にかけて4時間23分の間、データ通信できない、または利用しづらい状況になった(関連記事)。影響は全国の最大約180万人に及んだ。
 今回の説明によると、原因はLTEの信号中継装置と信号制御装置の間の認証応答のタイムアウト値に不整合があったことにあるという(写真1)。

 KDDIの4G LTEでデータ通信を利用する場合、月間7Gバイト以上などデータ通信の総量に応じた速度制限をかける。これをカウントする「利用通信量制御認証」を行うために、LTE端末は信号中継系の装置を介して「加入者プロファイルサーバー」に認証をかける。12月31日には、「瞬間的にアクセス集中直前の約7倍のトラフィックが発生した」(KDDI技術統轄本部運用本部長の内田義昭氏)ことがきっかけとなって加入者プロファイルサーバーにバッファオーバーフローが発生、認証の無応答や応答遅延が生じた。

 サーバーが無応答の場合、基地局から受けた信号を中継する「信号中継装置」のタイムアウトにより、接続セッションが開放される。
 今回はそれに加えて、信号中継装置から信号を加入者プロファイルサーバーに受け渡す「信号制御装置」のタイムアウト値が信号中継装置と異なる設定だったために余計に開放されるユーザーが増えた。具体的には、信号制御装置のタイムアウト値が3秒で、信号中継装置のタイムアウト値が2秒だったため、3秒以内に認証応答できた端末でも2秒以上かかった場合に接続セッションが開放された。
その結果、接続が開放されたLTE端末から一斉に再接続要求が発生し、さらに過度なアクセス集中を引き起こし、新規のデータ通信接続ができない状態に陥った。

 対策としてKDDIは(1)タイムアウト値の整合化、(2)タイムアウト発生時に信号制御装置が認証無しで代理応答する機能の導入(3)加入者プロファイルサーバーの増設を行う。アクセス集中に対する強度は、(1)と(2)の対策により、「14倍程度のトラフィックに耐えられるように設計し直した」(内田氏)としている。(3)の増強も「1月24日までに従来の約2倍の容量にする」としている(写真2)。

(2)の代理応答機能によって、各ユーザーの総通信量の認証が省かれ、速度規制はかからないことになる。それでも、「そのような事態はまれであるため、障害を起こさないことを優先して導入する」とした。

1月2日はアラーム誤発報から再接続処理が集中


 2013年1月2日の障害は、午前0時17分から午前2時10分までの1時間53分にわたって、全国で4G LTEの通信ができなくなった(関連記事)。原因となったのは、同じく信号制御装置だったが、12月31日の障害とは全く別の事象による障害だったという。原因となったのは「装置の通信障害を伝えるアラームの誤発報、および復旧手順書の不備」(内田氏)だったとしている。

 1月2日は、信号制御装置の呼処理をする部分で、呼処理のログを現用系システムから予備系システムにリアルタイムコピーする機能に遅延が生じた。「ログの処理なので、通信そのものには影響がないのに、通信異常が生じたというアラームが出た」(内田氏)。対処としては、現用系システムから予備系システムに切り替えれば済むはずだったのだが、「アラーム時の復旧手順書に対処方法が記述されていなかった」(内田氏)。

 そこで現用系と予備系を収用する装置全体の復旧措置を実施したことから、LTE端末のセッションがすべて開放された。その後は、12月31日と同様にLTE端末から一斉に再接続要求が発生したため、過度なアクセス集中、新規接続ができない状況へとつながった。