世界に1億人超のユーザーを抱えるネット動画配信サービス大手の米Netflix。障害がつきもののクラウドで、数千のマイクロサービスに分割したアプリケーションを15万台以上の仮想マシンによって安定稼働させる。このことは、同社にとって極めて重要な課題だ。

米Netflixのシニアカオスエンジニアであるノラ・ジョーンズ氏
米Netflixのシニアカオスエンジニアであるノラ・ジョーンズ氏
[画像のクリックで拡大表示]

 Netflixは、わざと本番障害を起こしてすぐ復旧させることを繰り返し、本当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。

 その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services(AWS)で、2017年2月に中核施設の一つ、米バージニア北部リージョン(広域データセンター群)にて大規模障害が起きたとき、別のリージョンに速やかに切り替えたという。

 Netflixの先進的な取り組みを紹介するこの特集の最後に、カオスエンジニアリングを取り上げる。