「本当に基幹系システムを乗せて問題ないのか」「障害が起こったらどう対処するのか」。こうしたパブリッククラウド利用の課題は、どう解決するのか。クラウドの導入に携わるITエンジニアへの取材から、移行・運用に関するポイントをまとめた。


 パブリッククラウドを利用する際に、手厚い準備をしておきたいのが「障害への対応」だ。インスタンス(仮想マシン)の冗長化構成などを採ったうえで、障害発生時の対処手順を明確にしておく。障害発生時の影響が大きい基幹系システムでは、「障害発生を前提として、復旧対策への注力」が欠かせない。

クラウドで発生する障害への対処の考え方
クラウドで発生する障害への対処の考え方
[画像のクリックで拡大表示]

 日本通運が数カ月前に遭遇したAWSのネットワーク障害では、約40システムで使っていたインスタンスが利用できなくなり、30~40分程度、業務が止まった。こうした障害が発生してもAWSから復旧の見込みや原因を告げられることはない。「ネットワーク障害だとはすぐに分からなかった」と日本通運の大沼勇夫IT推進部次長は振り返る。

 障害の状況がつかめなかった日本通運は、AWSのシステムメンテナンスに対応するために作成していたマニュアルに従い対処を開始。冗長化構成を採っていた2つのインスタンスのうち、障害が発生したデータセンターで稼働していたシステムを切り離し、もう一方のデータセンターでシステムを再起動し、復旧した。大沼次長は、「結果的に40分程度で済んだが、マニュアルがなければもっと時間がかかっていたのではないか」と振り返る。

マニュアルもクラウドに合わせてアップデート

 ただしマニュアルがあっても、日々クラウド側がアップデートしている。それに合わせて対応もアップデートすることが必要だ。

 「バックアップデータからサーバーを構築するなど、復旧訓練を最低でも半年に一度は実施すべき」とAWSの運用を手掛けるノーチラス・テクノロジーズの佐藤義仁氏はアドバイスする。以前、佐藤氏が担当している顧客のシステムで復旧訓練を実施したところ、AWS側の仕様が変更になっていたために、従来のマニュアルでは復旧できない事態に陥った。

 EC2のインスタンスIDの桁数が増えたことが原因だった。マニュアルでは具体的に桁数を指定していたため、マニュアル通りでは復旧できなかったのだ。佐藤氏は「障害原因をつぶさに調べて対策するオンプレミスに比べ、パブリッククラウドの場合は同じ障害が再発する可能性もある。こうした事態を想定し訓練しておくことで、より復旧を早められる」と強調する。