第4回実装が始まった「障害原因の自動分析」

2009.04.09

　アプリケーション・レベルでの監視を基に，エンド・ツー・エンドのサービス・レベルと問題点を把握する――。そのための仕組みを，もう少し詳しく見てみよう。ここでは，eGイノベーションのeGIスイートを例に解説する。

　このツールは「In-N-Out Monitoring」と障害原因分析の二つの機能を持つ。In-N-Out Monitoringでは監視対象の仮想サーバーに専用エージェントを搭載する。エージェントは，仮想OS上で稼働しているアプリケーション，リソース・アロケーション，ユーザー・アクセスの詳細状況といったインサイドビューと，物理ホスト/仮想OSのパフォーマンス，仮想サーバー群の相対的なリソース使用レベルといったアウトサイドビューの両方の観点でシステムを監視し，その結果を可視化する（図1）。これにより，どのアプリケーションやサービスがリソースを一人占めしているかが分かる。

図1●eGIスイートは仮想OSや物理ホストのパフォーマンスとアプリケーションのパフォーマンスの両方を監視する

[画像のクリックで拡大表示]

　こうして収集した情報から，物理環境/仮想環境をマッピングし，サービス・トポロジをビジュアル化する。さらに，情報を分析して仮想化インフラ全体でどこが問題になっているかをピンポイントに示すことができる。

　サービスマネージャが1次対応する際には，問題になっている個所からサービス，仮想サーバー，物理サーバーとドリルダウンしていけば良い。データのバックアップ処理が原因でWebアプリケーションの性能が劣化した場合を例に挙げよう。ここでは，VMware ESXサーバーを搭載したサーバー上でWebアプリケーション「ISG-WEB」を稼働させているものとする。

　エンドユーザーから応答が遅いというクレームを受け，サービスマネジャは早速，サービス名のISG_WEBのサービス・モニタリングを見る。この時点ではバックアップ・ジョブなどの問題点は全く見えない。画面からは赤マークと×印から，ISG_WEBのトランザクションのうち「Checkout」と「TransferBalances」の処理が異常に遅くなっていることが分かるだけだ（図2）。

図2●問題がありそうな部分を赤マークで表示

[画像のクリックで拡大表示]

　ここで，これらのトランザクション・アイコンをクリックするとWebアプリケーション・サービスのトポロジが表示される（図3）。サービス・トポロジでは依存関係が矢印で示され，カラーコードによってMSSQLサーバーの障害原因がWebサーバー（IIS-isg_web）に影響していることが分かる。さらにMSSQLサーバー・アイコンをクリックすると，図4に示すように，VMware ESX自体の何かがMSSQLサーバーに影響を及ぼしていることが分かる。