写真●楽天トラベルの廣田敏昭氏
写真●楽天トラベルの廣田敏昭氏

 楽天トラベルは,トラフィック監視では定番中の定番と言える「MRTG」を使っている。主な監視対象は,インターネット回線に接続したルーターのトラフィック(図1)。トラフィックは5分間隔で監視しており,「直前の監視結果から50%を割り込んだら携帯電話に警告メールを送るようにしてある」(廣田課長)。トラフィックが5分間で急激に減った場合,サーバーがダウンしている可能性が高いからだ。


図1●楽天トラベルが独自開発した監視システムの画面
図1●楽天トラベルが独自開発した監視システムの画面
インターネット接続回線のトラフィックをはじめ,サーバーのリソースやプロセス数の変化をMRTGでグラフ化している。 [画像のクリックで拡大表示]

 実は同社は,監視システムを自社開発することを基本方針にしている。「商用ツールを利用する場合,自社の要件をそれなりに満たしたもので我慢するか,自社の監視体制をツールに合わせるしかない。それならば自社で開発した方がいい」(廣田課長)という考えからだ。MRTGは唯一の例外。同ツールが備えるグラフ生成やデータ管理の機能を評価した結果である。「作り込むよりMRTGを使った方が早い」(廣田課長)と判断した。

 MRTGは,デフォルト設定で使うと,ネットワーク機器やサーバーのSNMPエージェントからMIBの「ifInOctets」と「ifOutOctets」の値を5分間隔で取得し,時系列にグラフ表示する。これが障害履歴を残すという観点で役立つ。

 同社では,ルーターのトラフィックのほかに,(1)サーバーの負荷(loadaverage)やメモリー使用率,ディスク容量,(2)httpdのプロセス数,(3)FAXサーバーのキュー数,(4)サーバーの死活監視,(5)メール・サーバーやDNSサーバー,FAXサーバーのプロセスの有無──などの監視にもMRTGを使っている。(4)と(5)は死活状況やプロセスの有無なので,状況と言っても「0」と「1」の2値しかない。それでもあえてグラフ化することにこだわっているのは障害履歴を残すため。「サーバーやプロセスが停止した場合は歯抜けのグラフになるので,いつからいつまで止まっていたのか一目で分かる」(同)という。

 もう一つ,MRTGを高く評価しているポイントは,過去の監視結果をコンパクトなデータにまとめて記録する「ラウンドロビン・データベース」という機能である。一般に,監視期間が長くなるとログ・データの容量も大きくなる。この点,MRTGのラウンドロビン・データベースを使えば監視ログが膨れ上がることはない。

URL:http://oss.oetiker.ch/mrtg/
ライセンス:GNU General Public License(GPL)
動作OS:UNIX,Windows,NetWare