フェイルオーバー処理で失敗しないためには、「故障検知」と「処理の引き継ぎ」のそれぞれで確実性を高める必要がある(図1)。

図1●ユーザー企業における四つの自衛策
故障検知と処理引き継ぎの確実性を高めることで、自動フェイルオーバー失敗の可能性を減らすことができる
[画像のクリックで拡大表示]

 日本HPの挾間部長は故障検知の網を広げることを推奨する。「ERP(統合基幹業務システム)ならトランザクション、Webサーバーならレスポンスタイムなどサービスの品質を監視することで、ハードの異常も見抜きやすくなる」(挾間部長)という。

 日本HPは将来発生し得る故障を事前に発見するソフト「HP Service Health Analyzer(SHA)」を2012年3月から提供している。サービスの稼働状況やパフォーマンスなどを分単位で収集し、測定値間の相関関係や周期性を自動学習。学習情報を基に異常値を検知し、障害発生の予兆を事前に予測することが可能だ。SHAはフェイルオーバー機能も備える。

 ネットワーク機器は故障検知のレベルが装置により異なる。例えばポートのリンクの状態だけでなく、指定アドレスに定期的にpingを発行し応答を確認する製品もある。「要件定義の中で、故障検知の機能や仕組みを確かめるべきだ」と話すのはネットワンシステムズ第1製品技術部コアネットワークチームの中村喜之氏だ。

 処理引き継ぎの信頼性を上げるには、システム導入時の障害テストを手厚くしたい。「タイムアウト設定などの非機能要件についてもテストで確認しておくことが大切」と日本HPの挾間部長は語る。電源断やケーブル引き抜きによるフェイルオーバーの確認でテストを済ますケースもあるからだ。

 構成情報管理も徹底したい。冗長構成を組むサーバーは同じ設定でなければならない。ところがネットワーク構成の変化などで設定変更を繰り返すうちにサーバー間で差分が生じ、フェイルオーバーに失敗するケースも多いという。

 故障検知の失敗には、製品のバグに絡むものもある。定期的な改修版の適用が理想だが、適用にはシステムの一時停止が必要だ。提供するサービスや業務とバランスをとって判断したい。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。