「Amazonのクラウド・サービスに障害,Web 2.0企業を脅かす」――。米国時間2008年2月15日,海外メディアでこんな見出しが躍った。同日,太平洋標準時午前5時ごろから米Amazon.comのオンライン・ストレージ・サービスに障害が起き,数時間にわたってアクセス不能になった。これにより,いわゆるWeb 2.0系と呼ばれるネット新興企業のサービスが一斉にストップ。New York Timesによれば影響を受けた企業は数十万社。これら企業が抱える多くのユーザーがサービスを利用できなくなった(New York Timesの記事)。

 当初Amazonの対応が迅速でなかったことから,ブログやWeb上のフォーラムなどで動揺が起きた。のちに同社が明らかにした説明によれば,認証アクセスが一時的に急増したのが原因。想定外だったとのことだ。Amazonはこのサービスを2006年から提供しているが,こんな事態はこれが初めて。同社に対する苦情も相次いだ。

 このサービスの名称は「Simple Storage Service」,通称は「S3」。Amazonが自社のECサイトのシステムとして利用しているサーバー環境を外販する形でネットを介して提供している。その売り文句は,「世界最大級のネット販売Amazonと同じ安定したサーバー・インフラ」「必要なときに必要なだけ利用できる格安のユーティリティ・コンピューティング」である。

TwitterやNew York Timesも採用

 S3は,AmazonのWebサービス部門である「Amazon Web Services」が手がけるサービスで,同社がここ数年本格的に力を入れている分野。本コラムでも以前レポートした「Amazon Elastic Compute Cloud(EC2)」と同様,サーバー環境を物理的なマシンでなく,仮想的に区切ってネット経由で提供している。このことから「クラウド・サービス」あるいは「クラウド・コンピューティング」などと呼ばれている(関連記事:ハードウエアも「あちら側」? Amazonが格安で提供する仮想サーバーとは?)。

 今回のシステム障害について調べていると,Amazon Web Servicesの利用者数がその後も着実に増えていることがよく分かった。例えば直近の四半期中には登録者数が3万人増加し,累計登録者数が33万人となっている。今やミニブログの「Twitter」,写真共有サイトなどの各種著名ネット・サービス,New York Timesといったメディア大手もアーカイブ記事の配信などに利用しており,今回の障害が及ぼした影響がいかに大きなものであるかがうかがえた。

16時間後,全容が明らかに

 同社が同日の午後9時近くになってAmazon Web Servicesの開発者向けサイトで明らかにした説明によると,今回のシステム障害の経緯は次のようなものだった。

 2月15日太平洋標準時の午前3時30分,Amazonは認証リクエストが増えたのを確認していた。同社は認証リクエストを含む全体的なリクエストを入念にチェックし,そのボリュームが通常の範囲内であることを確認した。

 しかしその中の認証リクエストがどの程度の割合なのかはチェックしていなかった。これが命取りになった。これら認証には暗号処理が含まれるため,通常のリクエストよりも多くのコンピュータ・リソースが必要になる。午前4時になって,認証リクエストがさらに増加した。リクエスト全体のボリュームも増大したことから,Amazonはそれを確認し,キャパシティの増強を図った。しかしその作業の完了を前に,認証サービスが限界に達した。これが起因し,午前4時31分,S3がすべてのリクエストを処理しなくなった。

 今回の事態を踏まえ,Amazonは今後次の4つの対策をとるとWebサイトで説明している。それは,(1)認証リクエストの割合について監視体制を強化する,(2)認証サービスのキャパシティを増やす,(3)認証リクエストに対する防衛策を拡充する,(4)顧客が不具合の状況を確認できるようにするダッシュボード機能を提供する,というものだ。

「コミュニケーション不足が問題」

 これらで今後の対策を万全にするというのだが,ZDNet.comに掲載のブログ記事「Between the Lines」に寄せられているコメントを見ると,今回のシステム障害関する顧客の不満は少し違うところにある。

 それは,「Amazonの反応があまりにも遅い」「顧客に対するコミュニケーションが不十分」というもの。コメントはこう続いている。

 「確かに今後提供するダッシュボード機能は素晴らしいことだが,それでは問題は解決しない。ダッシュボードに加え,状況を顧客のコンピュータが理解できるようにするデータを提供すべき。顧客がそれを自社サービスに組み込むことで,問題発生時にユーザーに今何が起こっているかを伝えられるようになる。またブログ,RSSフィード,メールといった方法で顧客に情報提供することも必要」 ―(中略)― 

 「今回,我々顧客が最も困ったのは,不具合がAmazonのシステムに起因していたということが分からず,数時間にわたり自社で検証作業を強いられたこと。掲示板に情報を掲載しているのでそれを読め,というのは不親切。開発者向けサイトのトップページにも告知するなど,情報開示を徹底すべき」――。