「やはり、障害発生時の対応が一番大変ですね」──。日ごろ、ネットワーク管理者に取材することが多くても、ネットワーク運用の内容を整理したことはなかった。あらためて仕事内容を整理しようと、ネットワークの運用が体系的に分かるような連載を企画し、ネットワーク運用サービスを手掛けるベテランのネットワーク技術者に話を聞きにいった。

 ネットワークの運用は、(1)通常時、(2)障害発生時、(3)保守時に大きく分けられる。このうち、ネットワーク管理者が一番大変だと感じるのは(2)の障害発生時。「小規模な企業だと管理者は一人。周りからは状況を報告しろと言われるがトラブルへの対処で手一杯。つらい状況に置かれる」と前述のネットワーク技術者は話す。

 では実際、企業でネットワークやシステムの運用を担当する管理者はどのようなトラブルに遭遇しているのだろうか。日経NETWORKが毎年行っている調査では、約8割がネットワークトラブルに遭遇している。2012年に実施した調査の結果については日経NETWORK7月号で紹介したが、そこではセキュリティに関する回答だけを取り出した。他の項目は記事化しなかったので、ネットワークトラブルに関係する部分をここで紹介しよう。この調査では899件の回答があった。

 まずはトラブルが判明したきっかけだ。

1位「Webアクセスの不調」50.6%
2位「ファイル共有やグループウエア、業務システムなどの社内サービスの不調」34.0%
3位「メールの不調」32.7%

 いずれもエンドユーザーが最初に気付いたものであることが分かる。「使えない!」と連絡があり、急いで対応する管理者の姿が目に浮かぶ。今やパソコンがなければ仕事にならない。業務が滞ってしまうため早く報告を求める気持ちも分かるが、経過報告よりも復旧に全力を挙げたいというのが管理者の心情だろう。

 では、どうやって原因を究明するのか。

1位「pingなどのネットワークコマンドを実行した」54.1%
2位「ネットワーク機器やケーブルなど現場の様子を直接目視で確認した」47.4%
3位「ネットワーク機器のLEDランプを確認した」41.1%

 ツールを使うのと実際に足を運ぶのがともに50%近い。やみくもに探すのではなく、自分の目とツールの両方を駆使することで短期復旧を目指している。

 最終的に、どこに原因があったのか。

1位「ハードウエアの不具合」41.7%
2位「LANケーブルの接続ミスなど、ハードウエアの人的ミス」25.4%
3位「サーバーの設定ミスなど、ソフトウエアの人的ミス」22.3%

 2位で意外と多いのはループ接続。経験したことがない人は「そんなことはないだろう」と思うかもしれないが、日経NETWORKのコラム「トラブルからの脱出」では“定番”だ。「使えない!」と言い出した人が、実は犯人だったということもある。

 解決策は何だったのだろうか。

1位「ネットワーク機器をリセット・再起動した」34.6%
2位「ネットワーク機器を交換・修理した」33.1%
3位「ケーブルを正しく接続し直した」25.6%

 1位は苦肉の策のことも多い。原因が分からないまま再起動すると、再発の恐れがあるからだ。でも、そうすることで時間を短縮できるケースが多いのも事実。ユーザーの業務を再開させることを優先し、リセットするケースも多い。

 こうして解決するのにかかる時間はどのくらいか。

1位「数時間」43.0%
2位「半日」19.0%
3位「1週間以内」11.4%

 半分近くが数時間で復旧している。障害の規模や種類がまちまちだろうから何ともいえないが、調査での質問を「複数のトラブルに遭遇された方は、特に印象的だったトラブルについてお答えください」としているので、比較的規模が大きかったり複雑なものと推測できる。それでも半数は数時間で解決していることに驚いた。

 冒頭で紹介したベテランのネットワーク技術者は、(2)の障害発生時の運用のためには、(1)の通常時の運用が重要だと話してくれた。通常時の運用には物理的な構成管理(ネットワーク図の管理など)や障害管理、性能管理、設備管理、セキュリティ確保などがある。もちろん、トラブルはないに越したことはないが、いざトラブルがあっても、日ごろの地道な努力を基に、短期復旧に向けて管理者は頑張っている。こうした管理者がいるからこそ、日々の業務が円滑に進められることを忘れないでほしい。