MSCS(マイクロソフト・クラスタ・サービス)環境でNIC(ネットワーク・インターフェース・カード)のハードウエア障害が発生しました。その際,クラスタ・グループが障害ノードよりスタンバイ・ノードへフェイル・オーバーすると期待していたのですが,実際にはクラスタ・グループ全体が障害によりオフラインになってしまいました。 管理ツールであるクラスタ・アドミニストレータによりこのときの状態を確認すると,両ノードのNICのアイコンに「×」マークが表示されていました。通信障害が発生したことは示していましたが,どちらが障害ノードなのかは判明しない表示でした。NICのハードウエア障害が発生した際には,当該ノードだけが障害とならず,クラスタ・グループ全体が障害となってしまうのでしょうか?
クラスタを構成するネットワークでICMP(インターネット・コントロール・メッセージ・プロトコル)が利用できないとこの現象が発生します。企業によってはネットワーク管理上のポリシーにより,ICMPをルーターなどで禁止していることがあります。具体的には,MCSCを構成するコンピュータからその外のホストに対してping(ICMP Echo Request)を打っても,正しく応答(ICMP Echo Reply)が返ってこない場合が当てはまります。 MSCSはWindows Serverの上位版が標準で備えるフェイル・オーバー・クラスタ機能です。複数のマシンをセットにしてクラスタ・グループを構成し,ハードウエアやOS,ソフトウエアのいずれかに障害が生じた場合,障害が生じたマシンの処理を別のマシンに移してサービスを継続させます。これがフェイル・オーバーと呼ばれる処理です。クラスタ・グループを構成する個々のコンピュータをノードと呼びます。 本来は,NICの障害が発生した際にも正しく障害が認識され,フェイル・オーバーします。しかしながら,ICMPを利用できなくしたネットワーク環境では,ご質問のように当該ノードだけが障害とならず,クラスタ・グループ全体が障害となります。これは,どの部分でネットワーク障害が発生したのか,クラスタ・メンバーだけでは判断できないためです。
pingを通さないとき発生
MSCSクラスタ・メンバーは約1.2秒ごとに,互いに3343/udpのユニキャストを送信しています(Windows Server 2003の場合,条件によりマルチキャストを使用します。詳しくはマイクロソフトのサポート技術情報の307962を参照してください)。 相手ノードからの3343/udpパケットが3回(two heartbeat periods)失敗すると,ネットワーク障害が発生したと判断します。 図1でノード1がノード2からの3343/udpパケットの未到達を検出した場合は以下のいずれかの個所に障害が発生したと考えられます。
(1)自ノードのNIC ただし,これらのどこかに問題があることまでは分かりますが,それ以上のことは分かりません。 障害個所をより正確に特定するにはどうしたらよいでしょうか? これには,MSCS以外のホスト,例えばMSCSを構成するコンピュータが所属するサブネットのデフォルト・ゲートウエイ(ルーター)と通信可能かどうかを調べる方法があります。
障害個所の特定にICMPを利用 その一方,図1で両ノードがともにルーターと通信不能であれば,ノードやそこに接続したケーブルの障害というよりは,ネットワーク全体に問題がある可能性が高いことを示唆しています。例えばイーサネット・スイッチの障害などがあり得るでしょう。 実はMSCSは,このような診断を障害時に行っています。具体的にはクラスタ・メンバー以外のホストとして,
・各ノードの経路表上で障害ネットワークに存在するdestination host(通常はそのサブネットのゲートウエイ) をリストアップし,ICMP Echo Request に対してReplyを返してくるかどうかにより,障害が生じた場所を判断しようとします。 そのため,該当するホスト(多くの場合ルーターを含みます)がICMP Echo Replyを返さない場合,ネットワーク全体の障害と判断してしまい,障害ノードの判定に失敗することになります。 このような場合には,MSCSのログであるcluster.logというファイルに図2のような記録が残ります。この中の[NM]はNode Managerからのログであることを示しています。
このログを見ると,pingを送出したNICと,応答すべきホストのIPアドレスが分かります。可能でしたらルーターなどの設定を見直してそのホストに対してpingが通るようにすると今回のような原因でフェイル・オーバーに失敗する問題は解決します。 サポート技術情報242600「2ノードのサーバークラスタにおけるネットワーク障害の検出と回復」も参考にしてください。 小森 博司
日本ヒューレット・パッカード テクノロジーサービス統括本部
サポートデリバリー本部 エンタープライズソリューション本部 ソフトウェアミドルリモートサポート部 シニアエンジニア |
MSCSでネットワーク障害時に期待通りフェイル・オーバーしない
あなたにお薦め
今日のピックアップ
-
データセンターは「えたいが知れないもの」、地域住民の感覚を理解して摩擦解消を
-
働き方の魅力で高評価、パーソルプロセス&テクノロジーがこだわる採用法
-
ソニーやソフトバンクが成功事例、変革なき「我が社のDX」を正せ
-
新法で「アプリストアを競争状態に」の現実味、公取委はApple・Googleと長期戦も
-
動画生成の技術向上や詐欺に使える文章生成サービスの登場、攻撃者のAI活用広がる
-
オープンデータ活用が進む沖縄県、さらなる推進の鍵は業界団体にあり
-
データ加工をSaaS型サービスで利用、dbtはSQL文を書くだけで処理を実装
-
iPadの「フリーボード」をデジタルノートに、Apple Pencilとの併用が快適
-
SSDの性能を左右するインタフェース、USBハブや変換アダプターの規格に注意
-
仕事に疲れたら、転職の代わりに「転居」を考えてみよう
-
Excelで今さら聞けない「前年比」、前年比120%と前年比20%プラスは同じこと?
-
「AIでググる」機能を一般提供、Googleが1年の試験運用で得た検索への自信
注目記事
おすすめのセミナー
-
「仮説立案」実践講座
例えば「必要な人材育成ができていない」といった課題に、あなたならどう取り組みますか? このセミナ...
-
CIO養成講座 【第35期】
業種を問わず活用できる内容、また、幅広い年代・様々なキャリアを持つ男女ビジネスパーソンが参加し、...
-
改革リーダーのコミュニケーション術
プロジェクトを成功に導くために改革リーダーが持つべき3つのコミュニケーションスキル—「伝える」「...
-
パワポ資料が見違える「ビジネス図解」4つのセオリー
インフォグラフィックスとは、形のない情報やデータなど伝えたいことを分かりやすい形で表現する技法で...
-
間違いだらけの設計レビュー
本セミナーでは、現場で多く見られる間違ったレビューの典型例を示し、そうならないための現場の改善策...
-
オンライン版「なぜなぜ分析」演習付きセミナー実践編
このセミナーでは「抜け・漏れ」と「論理的飛躍」の無い再発防止策を推進できる現場に必須の人材を育成...
-
問題解決のためのデータ分析活用入門
例えば「必要な人材育成ができていない」といった課題に、あなたならどう取り組みますか? このセミナ...
-
業務改革プロジェクトリーダー養成講座【第16期】
3日間の集中講義とワークショップで、事務改善と業務改革に必要な知識と手法が実践で即使えるノウハウ...
注目のイベント
-
日経クロステックNEXT 関西 2024
2024年5月16日(木)~5月17日(金)
-
【5月16日】ハイパーバイザーの基本を徹底解説、参加者全員にプレゼント進呈
2024年5月16日(木)
-
日経ビジネスCEOカウンシル
2024年5月16日(木)17:00~19:50
-
WEURO DIVERSITY & INCLUSION FORUM
2024年5月17日(金)13:00~17:30(予定)
-
VUCA時代に勝ち残る戦略的サプライチェーン構築に向けて
2024年 5月 24 日(金) 10:00~16:20
-
人手不足を乗り越える 日本の産業界成長のシナリオ2024
2024年5月30日(木)10:20~17:45
-
人的資本経営版:日経ビジネスLIVE 2024 Spring
2024年6月3日(月)~6月5日(水)
-
DX Insight 2024 Summer
2024年6月4日(火)、5日(水)
-
【6月6日】DXがもたらす変化とリスク、企業が押さえるポイントとITの備えは?
2024年6月6日(金)
-
付加価値ある意匠デザインを実現するものづくり技術2024
2024年6月7日(金)10:30 ~ 17:00
おすすめの書籍
-
ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団
ソフトバンクにはモバイルキャリア事業以外のもう一つの顔が存在する。本書ではキーパーソンへのインタ...
-
対立・抵抗を解消し合意に導く 改革リーダーのコミュニケーション術
本書は、改革リーダーに必須のコミュニケーション術を3つのスキルの観点からまとめ上げたものです。今...
-
もっと絞れる AWSコスト超削減術
本書ではコスト課題を解決するため、AWSコストを最適化し、テクニックによって削減する具体策を紹介...
-
優秀な人材が求める3つのこと 退職を前提とした組織運営と人材マネジメント
「学生に人気のコンサルであっても、大手企業であっても、せっかく獲得した人材が数年で辞めてしまう...
-
Web3の未解決問題
ブロックチェーン技術を主軸とするWeb3の技術について、現在の社会制度との摩擦と、その先にある新...
-
ロボット未来予測2033
ロボットの用途・市場はどう拡大していくのか。AI実装でロボットはどこまで進化するのか。技術の進展...