Google，「Gmail」の障害はルーターの処理容量オーバーが原因

ITpro

2009.09.03

　米Googleは米国時間2009年9月1日，Webメール・サービス「Gmail」で起きた障害の原因について，同サービスのトラフィック量が転送用ルーターの最大処理容量を上回ったためだったと発表した。同社は暫定的な対策として，ルーターの設定を変えて転送可能なトラフィック量を増やした（関連記事：「Gmail」で大規模な障害が発生，大多数のユーザーが一時アクセス不能に）。

　GoogleはGmail用サーバーを定期的にアップグレードしており，9月1日朝（PST：米太平洋沿岸標準時）も一部サーバーをオフラインにしてアップグレード作業を行っていた。オフラインになったサーバーの処理すべきトラフィックはルーターが別のサーバーに転送するため，通常アップグレード中もGmailのサービスは停止しない。ところが，最近サービス可用性を高める方策の一環としてルーターの最大処理容量を下げていたため，午後12時30分ごろ数台のルーターが負荷過剰な状態に陥ってしまった。これらのルーターがGmailシステムにトラフィック送信を止めるよう指示した影響で，余分のトラフィックを受けることになったほかのルーターまで負荷過剰となり，数分でほとんどすべてのルーターがトラフィック転送をやめたという。この結果，ユーザーはGmailのサーバーにアクセスできなくなった。

　Gmailの技術チームは障害発生から数秒で問題に気付き，その後の調査で障害の原因がルーターの最大処理容量にあると突き止めて対策をとった。IMAP／POP経由のアクセスとメール自体の処理は，別系統のルーターを使っていたため障害発生中も正常に作動していた。

　今回の障害により，ユーザーの大半がGmailに約100分間アクセスできなくなった。同社は「重大な問題」と受け止め，ルーターの処理容量を増やしたほか，各ルーターの障害が全体に波及しないようにする根本的な対策を検討する。なお，同社はGmailを含む有償オンライン・アプリケーション・サービス「Google Apps Premier Edition」において，99.9％の可用性を保証するサービス品質保証契約（SLA）を適用している（関連記事：Google，オンライン・アプリ「Google Apps Premier」で可用性99.9％を保証）。