突然のサービス停止。障害点はサーバー機かネットワークかデータベースか。サービスを構成するハードウエアとソフトウエアが複雑に絡み合い,時間だけが過ぎていく。そのような状況下で障害を容易に切り分けられる可視化ツールとして国内上陸の準備を進めているのが,テリロジーが2009年1月中の国内販売を予定している「eG Enterprise Suite」だ。開発元であるシンガポールeG Innovations創業者兼CEOのSrinivas Ramanathan氏に,既存の可視化ツールとの違いを聞いた。
可視化ツール「eG Enterprise Suite」がターゲットとする想定ユーザーは。
「サービス・マネージャ」と言われる立場の運用管理担当者だ。Webアプリケーションなどサービスの状態を監視し,障害発生時には問題を切り分けたうえで適切な担当者にトラブル・シューティングを依頼するのが主な役割となる。
障害発生時の問題個所の切り分けに,eG Enterprise Suiteが威力を発揮する。この製品の特徴は,問題の個所をトポロジとレイヤーで可視化できることだ。まずネットワークやサーバー機,仮想サーバー,Webサーバー,データベースといった構成要素の状態を取得し,全体像をトポロジ図として可視化する。個々の要素は,レイヤーとして見せる。ユーザーはトポロジ図からレイヤー図,さらに別のレイヤー図へとドリルダウンしながら障害の原因を判別する。
例えばログインエラーが発生している場合,まずトポロジ図を見てどのサーバーがエラーを出しているか把握する。次に該当するサーバーのアプリケーションをレイヤー別に分けた画面で,障害の原因となったエラーを突き止める。これらの作業により,「仮想マシンは正常でホストOSがエラーの発生元」「データベースのテーブル作成がエラー」といった情報が分かる。後は担当エンジニアに復旧を依頼するだけだ。
障害時に素早く問題を切り分けられる画面デザインが製品の肝なのか。
答えはイエスだ。サービスの障害検知から担当エンジニアへの復旧指示を出すまでの作業を自然にこなせるシンプルなユーザー・インタフェースの実現に心血を注いでいる(画面)。
もちろんシンプルなのは画面だけではない。「何をもって異常とするか」を決めるしきい値については,いくつかのテンプレートを基に個々のシステムに合わせたしきい値を設定できるよう作業を簡略化した。例えば負荷がダイナミックに変動するパラメータに関しては,正常時の各種指標を基に学習させる機能を持たせている。
情報を取得するエージェント・ソフトもシンプルな構成とした。OSやサーバー仮想化ソフト,アプリケーション,ネットワーク機器に至るまで一つのエージェントで監視できる。監視対象の種類に応じた課金もしない。ただエージェントのメモリー消費量を抑える目的で,監視対象を絞ることはできる。複数の要素を統合的に可視化する機能を持つ運用管理製品は珍しくない。競合する製品は何か。
既存の統合監視ツールは,運用担当者が扱うには複雑で,可視化の面で機能不足が目立つ。異機種混在のシステムを抽象化して,ユーザーに分かりやすく提示するレベルにまで至っていない。サービスの異常を個々の要素の障害に素早くドリルダウンできるツールは,今のところeG Enterprise Suiteだけと言えるだろう。分かりやすい事例を示そう。eG Enterprise Suiteは異機種混在環境の抽象化としきい値の自動学習などの機能を持つことから,運用管理のアウトソーシング事業者での採用実績がある。企業や組織によってまちまちのシステムをeG Enterprise Suiteが抽象化してくれるため,1人の運用管理者が同時に複数の企業や組織を担当できるからだ。
原因特定後に問題個所を自動復旧する機能はあるのか。
eG Enterprise Suiteは,既存の運用管理ツールを置き換えるものではない。ネットワークやサーバー,個々のアプリケーションそれぞれの運用管理ツールのうち,どのツールを使うかを判別する機能に特化している。復旧作業は担当エンジニアにそれぞれの管理ツールで実施してもらう。
異機種混在のシステムをシンプルに監視・分析できる機能にフォーカスしているため,自律制御の領域に手を広げる予定はない。復旧作業を自動化したいのであれば,eG Enterprise Suiteが持つ開発環境を使って,ほかの運用管理製品と連携させる機能を作り込むことはできる。