写真1●KDDIの嶋谷吉治取締役執行役員専務 技術統括本部長
写真1●KDDIの嶋谷吉治取締役執行役員専務 技術統括本部長
[画像のクリックで拡大表示]

 KDDIは2013年4月25日、同社のiPhone、iPad、iPad miniにおいて「Eメールリアルタイム送受信サービス」が4月16日から19日にかけて利用できない、または利用しにくい状況になった、通信障害(関連記事)についての説明会を開いた。(写真1

 今回の通信障害は、大きく以下の三つの事象が起こった。(1)4月16日の0時35分から1時間6分の間、全国で最大200人のサービスが利用できない状況、(2)同日8時8分から5時間21分の間、全国で最大288万人のサービスが利用できない状況、(3)同日13時29分から2日と13時間25分の間、全国で最大127万人のサービスが利用しづらい状況、およびカレンダーやアドレス帳などの情報が表示できない状況--である。

長期にわたった障害のきっかけは認証サーバー群のバージョンアップ

写真2●最大200人に影響した最初の障害
写真2●最大200人に影響した最初の障害
[画像のクリックで拡大表示]

 一連の障害は、同社が「2013年夏にも導入予定の新サービスのために実施したユーザー認証システムのバージョンアップ作業にミスがあったために起こった」(取締役執行役員専務・技術統括本部長の嶋谷吉治氏)という。KDDIは、同サービスのためのメールサーバー群を通常は4重化構成で運用している。これをバージョンアップ作業のために、それぞれ2重化された2系統のシステムに分けて、1系統を新バージョン設備として準備、もう1系統を現用系としてサービス運用を継続しながら、新バージョンシステムに切り替える作業を行っていた(写真2)。

 16日0時35分に生じた第1の障害は、この作業の際に、大元となるユーザー情報を格納するマスターサーバーと、複製したデータを格納するレプリカサーバーの間の接続が「手順書に記載したコマンドの誤りにより、現用系レプリカサーバーが、つながるはずのない新バージョンのマスターサーバーにつながってしまった」(嶋谷専務)ために起こった。その結果、「現用系レプリカサーバーのユーザー情報の一部が壊れ、最大200人のユーザーの認証にエラーが生じた」(嶋谷専務)。そこでKDDIは、プロキシサーバーの参照先を正常に稼働している新バージョンの認証サーバーのマスター・レプリカ構成に切り替え、認証エラーを解消した。

 この障害の要因となった手順書の記載ミスによる誤ったコマンド投入についてKDDIは「事前検証が不足していた」としている。手順書はベンダーが検証し、それをさらにKDDIがチェックした上で行っているが、「マスター・サーバー間のコピー作業の影響が、作業対象ではないレプリカサーバーにまで及ぶことを想定していなかった」という。