クラウドコンピューティングの普及に伴い、クラウドのトラブルが顕在化し始めた。2011年4月には、IaaS(インフラストラクチャー・アズ・ア・サービス)の代表格である「Amazon EC2」で、過去最大規模のトラブルが発生。多くの利用者に影響を及ぼした。

 クラウドのトラブルはどのように起こるのか。4月に発生したAmazon EC2における大規模障害を例に、その実態を解き明かす。それを踏まえ、クラウドを使ったシステム構築や運用の経験が豊富な専門家の意見を基に、ユーザーが実施すべき三つの「トラブル予防策」を紹介する。

(中田 敦)


【無料】サンプル版を差し上げます 本記事は日経コンピュータ8月4日号からの抜粋です。そのため図や表が一部割愛されていることをあらかじめご了承ください。本「特集」の全文をお読みいただける【無料】サンプル版を差し上げます。お申込みはこちらでお受けしています。 なお本号のご購入はバックナンバーをご利用ください。

 米アマゾン・ウェブ・サービシズ(AWS)の仮想マシン貸しサービス「Amazon EC2」で2011年4月21日に発生した大規模トラブルは、多くのクラウドユーザーに教訓を残す事件だった。

 米国太平洋夏時間(PDT)の午前1時過ぎ、同社の米国東海岸データセンター(DC)で稼働するEC2の仮想マシンや、仮想マシンの外付けディスクである「Amazon EBS」の一部が利用できなくなった。これらの障害が全面復旧したのは、発生から4日目の4月24日だった。

 EC2の障害によって、EC2をインフラとして利用する他社のクラウドサービスも停止に陥った()。例えば、米セールスフォース・ドットコムが提供するRubyのPaaS(プラットフォーム・アズ・ア・サービス)「Heroku(ヘロク)」では、データベース(DB)サーバーが利用できなくなるという障害が発生した。

図●アマゾン・ウェブ・サービシズの障害が他社のクラウドサービスにも波及<br>4月21日から4日間続いたアマゾン・ウェブ・サービシズ(AWS)の障害は、AWSを使用するPaaSやSaaSのサービス停止も引き起こした
図●アマゾン・ウェブ・サービシズの障害が他社のクラウドサービスにも波及
4月21日から4日間続いたアマゾン・ウェブ・サービシズ(AWS)の障害は、AWSを使用するPaaSやSaaSのサービス停止も引き起こした
[画像のクリックで拡大表示]

 EC2の大規模障害は、世界中のクラウドの事業者や利用者に大きな影響を与えた。まずは、そのとき何が起きたのか、時系列に見ていこう。

外付けディスクで障害発生

 今回のEC2の大規模障害は、ストレージサービスであるEBSの不具合に起因していた。

 EC2は、二種類のディスクを用意している。一つは仮想マシンのローカルディスク、もう一つが仮想マシンからiSCSI経由で接続する外付けディスクのEBSだ。仮想マシンのローカルディスクにあるデータは、ユーザーが仮想マシンを終了したり、ハードウエアやソフトウエアの障害によって仮想マシンが異常終了したりすると消えてしまう。一方、EBSに書き込んだデータは、仮想マシンが終了しても消えない。そのため、EC2でDBなどを運用するユーザーは、ディスクとしてEBSを利用するケースが多い。仮想マシンの起動ディスクとしてEBSを使用している場合、EBSが利用できなくなると、仮想マシンは立ち上がらなくなる。


続きは日経コンピュータ8月4日号をお読み下さい。この号のご購入はバックナンバーをご利用ください。