クラウドコンピューティングの普及に伴い、トラブルが顕在化し始めている。2011年4月、米アマゾン・ドット・コム子会社が提供するクラウドサービスの代表格「Amazon EC2」で、過去最大規模の障害が発生。多くの利用者に影響を及ぼした。クラウドサービスの大規模障害は他事業者でも発生している。また「仮想マシンがダウンした」といった小さなトラブルは、大規模クラウドサービスであればほぼ毎日発生していると言っても過言ではない。クラウドのトラブルはどのように起こるのか――。Amazon EC2で発生した大規模障害の実態に迫る。

 米アマゾン・ウェブ・サービシズ(AWS)の仮想マシン貸しサービス「Amazon EC2」で2011年4月21日に発生した大規模トラブルは、多くのクラウドユーザーに教訓を残す事件だった。

図1●アマゾン・ウェブ・サービシズの障害が他社のクラウドサービスにも波及
図1●アマゾン・ウェブ・サービシズの障害が他社のクラウドサービスにも波及
4月21日から4日間続いたアマゾン・ウェブ・サービシズ(AWS)の障害は、AWSを使用するPaaSやSaaSのサービス停止も引き起こした
[画像のクリックで拡大表示]

 米国太平洋夏時間(PDT)の午前1時過ぎ、同社の米国東海岸データセンターで稼働するEC2の仮想マシンや、仮想マシンの外付けディスクである「Amazon EBS」の一部が利用できなくなった。これらの障害が全面復旧したのは、発生から4日目の4月24日だった。

 EC2の障害によって、EC2をインフラとして利用する他社のクラウドサービスも停止に陥った(図1)。例えば、米セールスフォース・ドットコムが提供するPaaS型のクラウドサービス「Heroku(ヘロク)」では、データベースサーバーが利用できなくなるという障害が発生した。

 EC2の大規模障害は、世界中のクラウド事業者や利用者に大きな影響を与えた。まずは、そのとき何が起きたのか、時系列に見ていこう。