米マイクロソフトは2017年4月3日までに、クラウドサービス「Microsoft Azure」の東日本リージョンで2017年3月31日午後10時28分から発生した大規模障害についてのRCA(根本的な原因)レポートを公開した。電源供給システムに発生した障害が原因だとしている。

 RCAレポートは、同社の公式ページ「Azureの状態の履歴」で公開した。それによると、冗長構成で動いているはずの電源供給システムのうち、停電時に慣性でフライホイールが回転し続けてモーターを回すロータリーUPS(無停電電源装置)の一つに障害が発生し、当該データセンターの空冷システムへの電源供給ができなくなった。冷却システムがダウンしたことにより、いくつかのハードウエアリソースの熱問題によるデータ損失を防ぐため、自動シャットダウンを実行したという。一つのロータリーUPSに障害が発生しただけで、空冷システム向け電源供給システム全体が、冗長構成にしているにもかかわらず機能しなくなった原因については、現在も調査中。

 自動シャットダウンの影響で、Azure Storageおよびそれを利用するサービスに接続できなくなったり、接続に遅延が起きたりした。Azure StorageのほかにAzure仮想マシン、Webサイト構築/Webアプリケーションサーバーの「Azure App Service Web Apps」、データバックアップの「Azure Backup」、リレーショナルデータベースの「SQL Database」などで影響が出た。4月1日午前7時16分に、Azure Storageおよびそれを利用する全サービスの復旧を確認したとしている。