10月11日夜7時,久しぶりに神田神保町へ出かけた。本を買うのが目的ではなく,営業についての講演をするためだ。先月は社内で若手社員を対象にした営業の講演をしたのだが,今月はこのコラムを読んだ社外の方から講演依頼が来たのだ。毎月1回,いろいろな業界の営業マンや経営者が集まって,営業の勉強会をしているという。 

 ふだん情報通信にかかわる人とは研究会のメンバーはじめ広く付き合っているが,異業種の人と接する機会は少ないので軽い気持ちで引き受けた。生命保険会社,リース会社,広告会社と多彩だ。1時間余りの短い時間だったが,皆さん笑いながら聴いてくれたので,まずは成功だろう。技術の話抜き,スライドも使わずの私の営業話がどの業界の人にも通じることが分かった。

 さて,今回も前回に続いて営業話を書いたのでは,ITproでなく,SalesPROになってしまうので書かない。久しぶりにトラブル話を書こうと思う。どんな仕事をするにも想像力は重要だが,トラブル対策でも想像力が決め手になる。以下,想像すべきなのにしなかったために起こったトラブルについて書く。ただし,現実をそのままには書けないため,「事実にもとづくフィクション」であることをお断りしておく。

日本全国が真っ赤

 ある日曜の夜,いつもどおりNHKの大河ドラマを見ようとしていると数千拠点の大規模ネットワークを担当している課長から電話が入った。休日に電話が入るのは久しぶりだなあ,どんなトラブルが起こったのだろうと電話に出た。トラブルが私までエスカレーションされるのは年に1,2回あるかどうかだ。機器障害や回線障害といったほとんどのトラブルはヘルプデスクと全国の保守部隊で解決され,レポートだけがメールで来る。

 たまに発生する難しいトラブルはヘルプデスクから設計チームに連絡され,解析と対応を行う。これも私の知らないうちに始末がついているのがほとんどだ。

 電話によれば,ネットワークの監視画面が日本全国真っ赤になっているという。監視画面は全国の主要なノードが日本地図のように表示されるのだが,異常があるノードは赤くなる。全体が赤いというのだ。今日,何かイベントがあったのかと聞くと,通信センターの一つで計画停電があり,復電(電源を落としていたネットワーク機器やサーバーに電源を再投入すること)したところ異常が発生したとのこと。

 こんなのはルーティング異常に決まっている。大規模ネットワークではIPパケットをルーティングするための経路情報を自動的にルーター間で伝播するため,OSPFやRIPといった「ダイナミック・ルーティング・プロトコル」を使う。ダイナミック・ルーティングのいいところは膨大な数のルーターに手入力で経路情報を登録しなくても,自動的にルーター間で情報のやりとりがされるため手間がかからないことだ。半面,ダイナミック・ルーティングが恐いのは,初期設定のミスや部分的障害がネットワーク全体にあっという間に伝播することがある,という点だ。 

 ルーティングの中心である通信センターですべてのルーターの電源を計画停電で落とし,復電するとセンターとリモートの多数のルーター間で膨大な経路情報のやりとりと,各ルーターでの経路データベース作成のためのルーティング計算が一斉に始まる。回線にも,ルーターにも大きな負荷がかかる。その負荷が大き過ぎてルーティングが収束しない,つまり各ルーターの経路計算が終わりデータベースが安定した状態になるべきはずが,ならないのだなと想像できた。対策も頭に浮かんだ。

 しかし,まずは現場に駆けつけることだ。筆者のトラブル対応は現場主義だ。自宅にいて電話で状況を聞いたり,指示したりではラチがあかない。大きなトラブルの対応でまず重要なのは現象を正確に把握することと,対応している現場の人たちの状況を把握することだ。現象を把握するには必要なデータを取り,記録して解析しなければいけない。やみくもな試行錯誤をしたのでは混乱するだけだ。対応している人たちの状況把握はさらに重要だ。そこにいる人だけで解決できるのか,出来そうにないのか判断する。浮き足立って切り分けが進まないようであれば,直せる人間を連れてくるしかない。この状況判断が私にとっての一番大事な仕事になる。

 計画停電があったのは関西なのだが,現場とは現象が一番詳細につかめるところ,このケースでは監視センターだ。自宅からタクシーで現場に向かった。タクシーがいいのは電車より早く着くだけではない。連絡を取りながら移動できるのがメリットだ。車中から監視画面を見ている人に電話をし,通信センターのルーターに入れるか聞いた。入れるとのこと。これでかなり安心した。ルーターにログイン出来るなら情報の取得も,制御も出来る。ネットワークの輻輳(ふくそう)でログインも出来なければ最悪だ。ルーターのケーブルを引っこ抜いてネットワークから切り離すといった手段しかなくなる。 

 日本全国が真っ赤なのはちょっとビックリだが,現象もそのトリガーもはっきりしているので対策はシンプルだ。通信センターのルーターを一斉に復電したことが過負荷の原因なのだから,センター内のルーターのポートを閉塞してルーティングを一旦収束させる。次に1ポート開き,それにともなうルーティング計算が収束するのを確認して,さらに次の1ポートを開く。このように負荷をかけることなく順次ポートを開いて回復した。

 オンライン業務の確認試験も含め,夜中の12時までには作業が完了した。計画停電の日だったので業務に影響はなかったが,お客様に深夜までトラブル対応に付き合わせる結果となってしまった。帰りはタクシーではなく電車。電車のある時間に帰れて,正直ほっとした。

想像をルーチン化すべし

 さて,問題は何故ルーティング異常を事前に想像し,予防できなかったかということだ。事前に予測していれば計画停電の前に通信センターのルーターのポートを閉塞しておき,復電後,順次ポートを開けば問題を起こさずに済んだのだ。原因は二つの例外的な条件が重なったことだった。一つは計画停電,もう一つは移行による経路数の増大だ。

 この大規模ネットワークは新しいネットワークへの更改移行の途中だった。移行の途中段階ではルーターが扱う経路数が定常時の数倍に増大する。定常時はある地域内の複数拠点のアドレスを一つに集約が出来るが,拠点ごとに移行する場合,ある拠点は旧ネットワークに,別の拠点は新ネットワークに接続された状態となるため各拠点の経路を別々に扱わねばならない。たとえば,定常時10.10.0.0/16一つで表されていた地域は10.10.1.0/24, 10.10.2.0/24・・・と拠点ごとのアドレスになる。当然,移行設計で移行途中の経路数が最大いくつになるかは計算してあった。ルーターの処理能力がその経路数で問題ないことも,経路数が最大になった状態で基幹ルーターの一つが障害になり負荷がかかっても大丈夫だという検証もしていた。

 しかし,通信センターの計画停電という状態を想像していなかった。計画停電とは「複数の基幹ルーターの同時障害」と同じだ。再発防止策の検討では,二つの通信センターで同時に計画停電がある場合についても検証した。定常時では経路数が少ないため,特段何の対策もしなくても一斉復電できることを確認した。

 このトラブルはネットワークを預かる我々の想像力が乏しくて起こったのではない。想像すれば計画停電の影響は分かったはずだ。想像しなかったことが問題なのだ。ネットワークでは計画停電だけでなく,システムや設備にかかわるイベントが常にある。想像しないことによるトラブルを避けるには想像することをルーチン化すればよい。そこで,毎月のお客様との定例会で向こう半年間のイベントと,ネットワークへの影響の有無について報告することをルーチン化した。 

 実はトラブルの中には想像不能なものもある。このトラブルの原因は想像しろというのが無理,というケースだ。別の機会にそんなトラブルの対応についても紹介したい。

プロの根性

 神田神保町での講演会の後,簡単な立食パーティがあり,主宰者や参加した人たちと歓談した。遠く四国や長野からわざわざこの勉強会のために来ている方がいて,その熱心さにまず驚いた。主宰者は営業のコンサルティングを業としているのだが,事務所のホームページもなければ,この勉強会のホームページも作っていない。何故なんだと聞いて返ってきた答が印象に残った。

 「営業で一番つらいのは引き合いがないことだ。ホームページを作れば引き合いが増えるし,営業は楽になる。しかし,営業で苦しんでいるクライアントと同じ立場でコンサルティングをするために,自分も引き合いがない『地獄の状態』を保っているのだ。」 う~ん,全面的には賛同しかねるが,そのプロ根性には感服した。

■お知らせ
 筆者の主宰する情報化研究会を12月16日,日本未来科学館で「NGN時代のITプロフェッショナル」をテーマに開催します。会員でない方もOKですので,ふるってご参加ください。