米マイクロソフトは2017年3月10日、クラウドサービス「Microsoft Azure」の東日本リージョンで同年3月8日に発生したストレージの障害について、RCA(根本的な原因)レポートを公開した。同レポートによると通常、障害発生時に自己修復するための仕組みがバグの影響で正常に動作しなかったという。

 障害の原因は、ストレージのデータ配置を管理するバックエンドシステムであるStream Managerのバグ。Stream Managerはストレージサービスに障害があった場合、自己修復する機能を備えているが、バグにより自己修復に失敗した。このため2時間近く顧客の一部がストレージサービスに接続できなくなった。Webサイト構築/Webアプリケーションサーバーの「Azure App Service Web Apps」、データバックアップの「Azure Backup」、リレーショナルデータベースの「SQL Database」など、ストレージサービスが組み込まれている多数のサービスにも影響が及んだ。

 マイクロソフトはストレージに対し、自己修復を正常動作させるためのバグ修正プログラムを展開するという。今回と同様の障害を防ぐため、セカンダリーのサービス復旧機能を実装し、追加の監視も実施するとしている。