この連載記事の目次へ

高橋くん:
営業一部のIT推進委員。営業マンとして働く一方,システム部と協力して部内のネットワーク・システムの面倒を見ている。
島中主任:
システム部主任。社内ネットワークを運用管理する中心人物。各部署のIT推進委員からの声を社内ネットに生かすよう活動している。

 この連載では,架空の企業を舞台に企業内ネットワークの運用管理を誌上体験する。今回は,これまでの連載で構築したシステムに相次ぎ発生したトラブルへの対処について見ていこう。

 営業部門のローカル・システム*が稼働して約1カ月が経過したある日の夕方。高橋くんが退社しようと帰り支度をしているところを営業部長に呼び止められた。いつものように営業部門の情報共有システムを使おうとしたのだが,Webブラウザから応答がないというのだ。

 高橋くんは急いで自分の席に戻って,パソコンを起動しなおし,同じように営業部門の情報共有システムにアクセスしてみた。すると部長の言う通り,応答が返ってこない。

高橋:変ですねぇ。さっきまで使えていたのに…。島中主任に声をかけて確認してきます。

サーバーのハードウエアに障害発生!

高橋:ああ間に合った。島中主任,ちょっといいですか?

島中:やあ高橋くんか。もう帰るところなんだけど,こんな時間にどうしたんだい?

高橋:実は営業部門のローカル・システムが急に使えなくなっちゃったんで,一緒にサーバー・ルームに行って見て欲しいんです。

島中:えっ,何かの間違いじゃないのか?

高橋:部長が使えないと言いだして,僕のパソコンから使おうとしてもダメだったんです。

島中:そうか。じゃあ行ってみようか。

 島中主任と高橋くんがサーバー・ルームに着き,ラックに搭載されたサーバー・マシンを確認すると二つあるハードディスク・ドライブ(HDD)のランプが両方とも消えていた。

高橋:あれっ。このランプ,本当は光ってないとダメなんですよね?

島中:そうだね。確かにHDDのランプが両方とも消えてるな。HDDが二つとも壊れるなんて普通はあり得ないんだけどなぁ。でも,この状態だと使えないのは確かだね。

高橋:じゃあ何が悪いのか調査しましょう!

島中:うーん,詳しい原因はベンダーに見てもらわないとわからないと思うよ。確か保守契約で対応してもらえるのは9時から17時のはずだから,明日まで待つしかないね。

高橋:ええっ,明日までこのままなんですか?

島中:そんなに驚くことはないだろう。「1日や2日くらい停止してもいい」って決めたのは高橋くんじゃないか。

高橋:そうでした。部長に言われて24時間の保守は必要ないって決めたんでした。ハードウエア障害だってことを部長に報告してきます。

機器の情報が台帳に反映されていなかった

 やれやれと思いながら今度こそ帰宅しようとしている島中主任のところへ,高橋くんが青い顔をして飛び込んできた。

高橋:島中主任,大変です! 復旧が明日になるって部長に報告したら,今日中になんとかしろって言われちゃいました。実は,今日の昼に新製品案内のメールを代理店に送ったばかりで,資料をダウンロードしたいっていう電話が今もかかってきているみたいなんです。

島中:そんなことを言われてもなぁ。

高橋:部長からは,お金をかけてもいいんで,とにかく早く復旧するように言われてるんです。なんとかなりませんか?

島中:しょうがない。できるだけのことはしてみるよ。じゃあ,高橋くんは管理台帳からサーバーとHDDの型番とシリアル番号を調べてくれ。保守を依頼するときに必要になるからね。

高橋:えっ,あの,その…。

島中:どうしたんだい?

高橋:実は…管理台帳に型番とシリアル番号を登録するのをサボってました。すみませんっ。

島中:なに? こういうときのために機器をきちんと管理するように言っておいたはずだぞ。

高橋:すみません…。

島中:しょうがない。一緒にサーバー・ルームに行こう。私はもう少し状況を確認するから,高橋くんは型番とシリアル番号を調べるんだ。

高橋:はいっ,わかりました。

データがバックアップできていなかった

 島中主任がベンダーに掛け合って,今回はスポット保守*で対応してもらうことで話がついた。依頼して数時間後,サーバー・ルーム内ではベンダーの対応員がRAID(レイド)*コントローラなどの交換作業に汗を流していた。もうすぐ作業は終わるようだ。


図1 ○×商事の営業部門サーバーに障害発生
サーバー・マシンのRAIDコントローラが故障し,2台のHDDともデータを読み書きできなくなってしまった。

[画像のクリックで拡大表示]

 今回の障害は,OSがHDDにアクセスしている最中にRAIDコントローラでハードウエア障害が発生し,その結果HDD内のデータが壊れてしまうというものだった(図1[拡大表示])。このように,RAID構成をとっているにもかかわらずHDDが同時に壊れてしまうのは,非常にまれに起こるトラブルといえるだろう。

 RAID構成にしていれば,1台のHDDに障害が発生しても,残ったHDDでそのまま稼働を続け,タイミングを見計らって残ったHDDからデータを復旧できる。それに対して,今回のようにRAIDを構成していたHDDの内容がすべて壊れてしまったケースでは,DAT*などのバックアップ装置に退避した過去のデータから復旧させる必要がある。

島中:残念ながらHDDの中身は消えてしまったけど,DATのバックアップから戻せるから大丈夫だよ。さあ,急いでデータを復旧しよう。

高橋:そ,それが…

島中:なんだかイヤな予感がするんだけど…。

高橋:すみません。実は,DATのバックアップは,システムが稼働した時点で取ったのが最後で,その後は実施してませんでした。

島中:なんだって!

高橋:RAID構成だって聞いたので,HDDが冗長化されているなら大丈夫だと思って手を抜いてました。それから…。

島中:まだ何かあるのかい?

高橋:ええ,アカウントの管理台帳も,実は,その,更新できてませんでした…。

島中:…。もう,怒るのを通り越してあきれたよ。データのバックアップやアカウントの管理は高橋くんが責任を持って実施することになっていたよね。どうして約束したことができないんだ? 高橋くんが情報管理の重要性を理解していなかったとは,とっても残念だよ。

高橋:本当にすみません…。


●筆者:佐藤 孝治(さとう たかはる)
京セラコミュニケーションシステム データセンター事業部 東京運用監視課・責任者
社内,社外のシステム・インフラ導入業務を経て,現在はデータ・センターの構築・運用管理に従事している。

この連載記事の目次へ