米グーグルは2009年2月25日(米国時間)、24日に発生したGmail大規模障害に関する障害報告書(Incident Report)を公開した。同社が現在導入を進めているデータセンター用新基盤ソフトの障害対応機能とGmailの双方に不備があり、24日に欧州のデータセンターで発生した障害をきっかけにバグが顕在化。Gmailが2時間半に渡って停止した。

 障害報告書によれば同社は、数カ月前からデータセンターの機能を最適化する新しい基盤ソフトウエアを導入中である。同社の基盤ソフトウエアは、データセンターのメンテナンス中にユーザーの処理やデータなどを別のデータセンターに移行する機能などを持つ。

 ところが、2月24日に欧州のデータセンターで定期メンテナンス中に障害が発生した際に、新基盤ソフトウエアの障害対策機能自身に予期せぬ障害が発生した。この新基盤ソフトウエアの障害が、Gmailの未知のバグを顕在化させた。本来であれば、あるデータセンターに障害が発生した場合、ユーザーの処理やデータは他のデータセンターに引き継がれる。しかし、この機能を司る新基盤ソフトウエアに障害が発生したため、障害が発生したデータセンターからユーザーの処理やデータを引き継いだ複数のデータセンターにおいて、予期せぬ過負荷が同時多発的に発生した。その結果、Gmailが利用停止状態になったという。

 グーグルでは今回の障害を受けて、改善策を発表している。まず、今回のメンテナンスは米国の深夜に行われたが、Gmailは全世界で利用されているため多くのユーザーに影響を与えた。システムのメンテナンスを「ユーザーのオフ時間」に実行するのは不可能であるため、「今後は、システムの自己修復・自己管理機能の開発を強化する」としている。

 今回のGmail障害では、障害情報の伝達にも問題があった。障害の第一報が公表されたのは、障害が発生してから2時間近く経ってから。しかも障害情報の掲示場所も、グーグルの公式ブログやニュースグループ、Google Appsのヘルプページなどで、ユーザーにとって分かりにくかった。そこで同社は25日(米国時間)、「Google Appsステータスダッシュボード」と呼ぶ新サイトを設け、ユーザーが障害情報を一元的に見られるようにした。また大口顧客に対しては、電話による対応を強化するとしている。

■変更履歴
公開当初は「新基盤ソフトウエアの障害を引き起こした直接の原因は、Gmailにあったバグ」としていましたが、正しくは「新基盤ソフトウエアの障害が、Gmailの未知のバグを顕在化させた」です。お詫びして訂正します。本文は修正済みです。 [2009/02/26 17:35]