システム停止を前提に考えると、スムーズな復旧が鍵になる。復旧を担当する運用チームがスムーズに作業できるよう、運用担当者は基本設計、詳細設計の段階でフローや支援ツールを準備しておく必要がある。

 「システムを止めない方法を追求するのは限界がある。運用設計で復旧を早くする方法を考えた方がいい」。リクルートテクノロジーズの伊藤友博氏(ITソリューション統括部 インフラソリューション部 インフラソリューション3グループ シニアエンジニア)はこう言う。稼働率が99.9X%という水準になると、0.01ポイント上げるのに多額のコストが掛かるからだ。

リクルートテクノロジーズの伊藤友博氏

 早期復旧には、運用担当者が素早くミスなく作業を実施することが重要。そのためには、基本設計や詳細設計の段階で実施する、システム停止を想定した運用設計がポイントとなる。「インフラの障害を素早く復旧することでサービス停止が10分を超える『重度全体障害』を、2014年度には1件も発生させなかった」(伊藤氏)。

 まずは伊藤氏が実践している障害復旧フローを見ていこう(図1)。システムの24時間365日監視は、外部のサービスを利用している。Webサイトの停止やレスポンス低下などがあると、運用担当者が監視サービス事業者からメールや電話で連絡を受ける。ここから障害対応がスタートする。

図1●リクルートテクノロジーズで実施している障害対応
図1●リクルートテクノロジーズで実施している障害対応
スムーズに障害対応を進めるには、事前に各項目を設計しておく必要がある。障害対応チームの結成以降は、Excelシート「障害対応フォーマット」を利用して、把握すべき情報や連絡、復旧作業に抜け漏れがないかチェックする
[画像のクリックで拡大表示]

 連絡を受けた運用担当者はWebサイトにアクセスしたり、監視ステータスを見たりして状況や影響を把握する。状況を把握できた後のフローはあらかじめ定められている。障害が長時間、大規模化しそうな場合は、ほかの運用メンバーに緊急招集を掛け、「障害対応チーム」として行動する。

 チームは全体統括者、復旧担当者、連絡担当者に分かれて動く。復旧担当者は復旧作業に集中し、連絡担当者が利用部門との連絡窓口になる。全体統括者は復旧作業全体をコントロールする。パターン分けした復旧フロー、連絡先の一覧表を用意しており、復旧担当者、連絡担当者はある程度マニュアルに沿って作業できる。ただ、障害には想定外がつきもの。「全体統括者の判断で、アプリケーション担当者を招集したりする」(伊藤氏)。

 リクルートテクノロジーズのような、スムーズな障害復旧には入念な事前準備が必要だ。運用体制が設計できていないと、障害対応チームを迅速に結成できない。運用フローや連絡体制が不十分だと、障害発生後に試行錯誤しなければならなくなる。

[専門外でも本PARTが理解できるポイント!]
障害復旧はRTOとRPOで考える

 運用担当者以外は、障害復旧を「RTO(目標復旧時間)」と「RPO(目標復旧ポイント)」で捉えるとよい。RTOはシステムを元の状態に戻すまでの時間、RPOは復旧によってデータに戻す時点を指す。例えばRTOが6時間、RPOが1日というのは「6時間以内で前日時点のデータを持ったシステムに戻す」という意味になる。これを運用担当者との共通言語にすると、運用設計がスムーズに進む。

 運用担当者が監視システムやバックアップ・リカバリーの方式を設計したり、運用体制とフローを整理したりしているのは、すべて適切なRTO、RPOで復旧できるようにするためである。

次ページ以降はITpro Active会員(無料)の方のみお読みいただけます。