米Amazon.comのクラウド事業Amazon Web Services(AWS)は「Amazon Simple Storage Service (S3)」サービスで発生した大規模障害に関する調査報告を現地時間2017年3月2日までに公表し、人為的ミスが原因だったことを明らかにした。

 S3の障害は、米バージニア州北部の「US-EAST-1」リージョンで太平洋標準時間2月28日午前9時37分に発生した。

 AWSの報告によれば、当時、S3の決済システムの問題を修正するために、S3チームが作業にあたっていた。決済システムのサブシステムを構成する数台のサーバーを停止する目的で、特権を認められたチームメンバーが手順書に従ってコマンドを入力したが、コマンド入力にミスがあり、意図したより多くのサーバーを停止させてしまった。他の重要なサブシステムにも影響が広がり、システム全体を再起動しなければならなくなった。

 S3は、顧客にほとんど影響を与えずにシステムの不具合や停止に対応するデザインになっており、これまでトラブルなく運用できていた。システム全体の再起動は経験がなく、この数年の急成長でシステムが巨大化していたため、「予想以上に再起動に時間を要した」とAWSは説明している。

 再起動している間、S3はリクエストを処理できない状態に陥った。S3のAPIが利用不可能になったため、同リージョン内の他のサービスも影響を受けた。

 午後1時54分、S3は通常運用に復帰し、他のサービスも復旧し始めた。なお、稼働状況を表示するダッシュボードの管理コンソールもS3を使用していたため、午前11時37分まではダッシュボードのステータス表示も更新されなかった。

 AWSは、顧客に謝罪するとともに、今後の改善を約束した。サーバーを停止する際に用いるツールに変更を加え、より時間に余裕を持って作業するようにした。また、最小限のレベルのサブシステムのみ停止するよう、安全策を追加した。さらに、ダッシュボードの管理コンソールを複数のリージョンで稼働させる。

 米Bloombergが引用した米SimilarTechのデータによると、4時間以上に及ぶ今回の大規模障害で、「ESPN」や「AOL」を含む約15万サイトが影響を受けたという。

[発表資料へ]