突然のシステムダウン、システム刷新プロジェクトの失敗──。1981年の日経コンピュータ創刊号から2017年までにわたって「動かないコンピュータ」などに載せたトラブル実例は実に1098件。これらを分析して、トラブル防止につながる知見を得られないか。こう考え、セキュリティ関連、システムダウン、開発失敗というITトラブルの3大リスクを対象に様々な角度から調べてみた。すると、知られざる傾向と対策が見えてきた。

 前回(第1回第2回)までのセキュリティ事例分析に続き、今回と次回はシステムダウン事例の分析を紹介する。

 システムが全面ダウンする割合は再び増加している――。本誌調査の結果、意外な事実が明らかになった。システムがほぼ全ての機能を停止させる全面ダウンの割合は、情報技術の進化や運用ノウハウの蓄積によって2000年代まで順調に減少していたが、ここに来て増加に転じているのだ。

 システムダウンの状態が分かる596件のトラブル事例を調査し、システムが一部機能だけダウンした場合と全面ダウンした場合の割合を比べた。1980年代と90年代、2000年代、10年代と年代別に見ると、2000年代は全面ダウンの割合が27.1%と1980年代よりも40ポイント超下がったが、2010年代には7ポイントの増加に転じ34.3%となった。

全面ダウンの割合は増加に転じた
全面ダウンの割合は増加に転じた
図●システムダウン全体に占める全面ダウンと一部ダウンの割合(年代別)
[画像のクリックで拡大表示]

 全面ダウンの割合が増えた理由は、ハードウエアの故障とセキュリティ関連の不具合が増加したことにある。

 ハードウエア故障の割合は2000年代に26.6%だったが、2010年代に28.6%へと増加した。同様にセキュリティ関連の割合は2000年代に6.3%だったが、2010年代には20.0%まで増えている。セキュリティ関連の不具合とハードウエアの不具合は、いずれも他の要因と比較して全面ダウンにつながりやすい傾向がある。このことが全面ダウンの割合を押し上げた。

ハードに起因する全面ダウンの割合が微増
ハードに起因する全面ダウンの割合が微増
図●全面システムダウンの原因別割合(年代別)
[画像のクリックで拡大表示]

 セキュリティ関連の不具合は前章で示したとおり、サイバー攻撃の増加がシステムダウンのリスクを高めた。本章では主にハードウエア故障に伴うシステムダウンについて分析しよう。

 システムが全面ダウンした事例では全ての年代において、ハードウエア故障の割合が最も多かった。1980年代は全体の42.1%をハードウエア故障が占め、90年代は43.5%と微増だった。2000年代は26.6%と減ったが、2010年代は28.8%に増えた。過去と比べると全面ダウンに占める割合は減少したものの、依然としてダウン要因としては最多だ。

 米EMC(現デルEMC)が2012年に実施した調査でも似た結果が出ている。同調査によれば、データ損失とシステムダウンの3大要因は「ハードウエアの障害」「データの破損」「電力供給の問題」で、日本ではハードの障害はトラブル全体の55%に上ったという。

サーバー関連のトラブルが増加

 30年前から全面ダウンの最大要因だったハード故障だが、その内訳を掘り下げると年代別にトラブルの原因が変化していることが分かる。

サーバーの切り替え失敗などが目立つ
サーバーの切り替え失敗などが目立つ
図●ハードウエア故障の原因別割合(年代別)
[画像のクリックで拡大表示]

 システムダウンの原因が判明した事例129件について年代別に分析した結果、2010年代ではハードウエア故障のうち最も割合が大きいのがサーバー関連のトラブルで39.1%を占めていた。2000年代もサーバー故障の割合が30.6%と最も多い。

 1980年代や90年代には、サーバーの偶発的な故障ではなく、地震や水害といった天災によってコンピュータが被害を受ける事例が多数を占めていた。本誌でも地震の揺れで機器類が転倒・故障したり、施設の排水機能が故障してコンピュータが水没したりといった事例を多く掲載している。1980年に日本電子計算機(現JECC)が実施したユーザーアンケートの結果によると、ユーザー企業のコンピュータ事故件数を集計した結果、最も多かった事故が「天井や空調などからの水漏れ」で、2番目が「空調や配電盤、コンピュータなどからの出火」だった。

 2000年代以降は、自然災害への耐性を高めたデータセンターの整備が進み、自然災害に対するBCP(事業継続計画)の策定が普及したことで、災害や事故に関連したトラブルは大幅に減った。日本情報システム・ユーザー協会(JUAS)の「企業IT動向調査報告書2017」によれば、BCPを採用する企業の割合は緩やかに増えており、特に金融機関は8割以上が自然災害に対するBCPを策定しているという。金融庁が率先してガイドラインを作成したことが寄与したとみられる。

 自然災害によるトラブルの割合が減ったのに合わせて、トラブルの要因として目立ってきたのがサーバー関連のトラブルだ。特にシステムのオープン化が進んだ2000年代以降、システムダウン全体に占めるサーバー関連のトラブルの割合が顕著に増加している。