2017年2月末から1カ月の間に、パブリッククラウドサービスの大規模障害が相次いで起きた。2月28日(太平洋標準時間)にはAmazon Web Services(AWS)の本拠地といえる米バージニア北部リージョン(広域データセンター群)で、オブジェクトストレージサービス「Amazon S3」の大規模障害が発生。復旧まで4時間以上を要した。さらに、3月8日と31日の2度にわたりMicrosoft Azureの東日本リージョンで、同月28日には西日本リージョンで、それぞれ数時間にわたる大規模障害が発生した。

 ユーザーは、クラウドサービスの信頼性をどのように捉え、どう対処したらよいのか。AWSに精通したアーキテクトの草分けで、ユーザーとパートナーを代表する2人を招いて座談会を開き、考えを聞いた。

 出席者の一人は、NTTドコモの秋永和計氏(イノベーション統括部 クラウドソリューション担当 担当課長)。AWSの大規模ユーザーである同社でCCoE(Cloud Center of Excellence、クラウド利用推進の中核組織)を率いるのに加えて、外部の企業へのクラウド利用に関するコンサルティングやツール提供も手掛ける。

 もう一人は、AWSのパートナー、セクションナイン 代表取締役社長の吉田真吾氏。AWSの普及・啓蒙に尽力した個人に与えられる「AWS Samurai」を2014年と2017年に受賞。次世代のシステム設計方法、サーバーレスアーキテクチャーのコミュニティー「Serverless Meetup Japan(Tokyo/Osaka)」を主宰する。

(聞き手は、中山 秀夫=日経クラウドファースト

2017年2月28日(太平洋標準時間)に、オブジェクトストレージAmazon S3の大規模障害が米バージニア北部リージョンで発生しました。S3といえばAWSのなかで最も古いサービスであり、AWSを象徴する存在です。しかも、ほかのサービスに広く組み込まれています。改めて障害の内容や原因について教えてください。

座談会に参加した、NTTドコモの秋永和計氏(左)、セクションナインの吉田真吾氏
座談会に参加した、NTTドコモの秋永和計氏(左)、セクションナインの吉田真吾氏

吉田 原因は、AWSのS3チームのメンバーが入力したコマンドにミスがあったことです。バージニア北部リージョンで、S3の請求システムの問題を修正しようとして、ミスをしてしまったようです。

 コマンド入力のミスによって、意図した以上の多数のサーバーが停止しました。その他の重要なサブシステムにも影響が広がったため、システム全体を再起動しなければならなくなったのです。

 再起動している間、S3はリクエストを処理できない状態に陥りました。S3のAPI(アプリケーション・プログラミング・インタフェース)が利用できなくなったため、バージニア北部リージョンにあるほかのサービスも影響を受けています。復旧には4時間以上掛かりました。

NTTドコモ イノベーション統括部 クラウドソリューション担当 担当課長 秋永和計氏
NTTドコモ イノベーション統括部 クラウドソリューション担当 担当課長 秋永和計氏
NTTドコモでパブリッククラウドを用いたサービスの商用化を最初に実現し、その後パブリッククラウドの社内利用を促進。現在はCCoE(Cloud Center of Excellence、クラウド利用推進の中核組織)を率いるのに加え、クラウド利用のノウハウやクラウドコスト最適化ツールなどの開発・外販を手掛ける

日本のユーザー企業には、具体的にどんな影響があったのでしょうか?

秋永 当社(NTTドコモ)はユーザーとしてAWSを大規模に使っていますが、大きな影響はなかったですね。米国のリージョンの障害だったので、当社に限らず影響を受けた日本企業は少なかったと思います。

 先日のE-JAWS(Enterprise JAWS-UG、AWSのユーザー企業のコミュニティー)で、S3の障害の話が出ました。影響を受けたと言っていたのは一部の企業だけで、しかも影響の範囲が限定的だったとのことです。あるユーザー企業は「じたばたしないで待っていた」と言っていました。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。