今年の夏には,興味深い出来事が立て続けに発生した。それらの出来事に類似点があること,それぞれの発生時期が比較的近いこと,そしてそれらが将来に与える影響などを考えると,これは注目すべき問題である。

 Microsoftが8月第4週末に,多くの人々のWindowsシステムを使用不能に近い状態にしてしまう過ちを犯したことを覚えている人は少なくないだろう(関連記事(英文))。Microsoftによると,「プロダクション前のコードが誤ってプロダクション・サーバーに送信されてしまった」そうである。そして,たまたまそれが,同社のWindows Genuine Advantage (WGA)技術を処理するコードだったのだ。それらのミスが発生した結果,被害を受けたWindowsシステムは少しの間,アクティベーションができない状態になった。そして,Windowsシステムが正規品であるかどうかを判定するプログラムは,長い間(約20時間)修復されなかったのである。

 8月上旬にはどういうわけか,Googleが自社のブログの一つを誤ってスパムと判断し,削除してしまった(関連記事(英文))。そのブログは,Googleのカスタム検索エンジンの技術に関するものだった。ブログの削除がカスタマーに大きな衝撃を与えたわけではなかったが,技術を売り物にする大企業,特に自分たちは最先端を独走していると自負している企業がそのような過ちを犯したことに人々は驚いた。Googleの技術の一部に欠陥があることは明らかである。幸い,この事件で欠陥が明らかになった技術は,同社の技術の中で重要な位置を占めるものではなかった。

 ほぼ同時期に,ハードウエア障害が原因でCisco SystemsのWebサイト全体が,利用不可能になった(関連記事(英文))。同社のブログには次のように書かれている。「この問題は,弊社のデータ・センターの一つで予防的メンテナンスを行っている最中に,人的エラーによってシステム上に過負荷が発生したことが原因で起きた。これによって,Cisco.comとその他のアプリケーションがダウンした。過負荷が深刻だったため,いくつかのアプリケーションと電力システムの冗長化対策も影響を受けた。ただし,システムは人々と設備を保護するため,設計通りにシャット・ダウンした。その結果,データの損失やけが人は全くなかった。Ciscoは,これらのシステムのレジリエンス(回復力)を強化するため,さらに冗長性を追加する計画にすでに取り組んでいる」。

 Ciscoのサイト障害は,実際に深刻な問題だった。カスタマーが,盛んに悪用されている脆弱性を対象とする,リリースされたばかりのセキュリティ・パッチをダウンロードしようとしている最中に,そのような障害が発生したら,世界中でどういうことが起きるのか想像してみてほしい。

 8月にはほかにも,Skypeが世界中を網羅する自身のピア・ツー・ピア・ネットワークをダウンさせてしまった事件があった(関連記事(英文))。「supernode」ソフトウエアの設計上の欠陥のために,同社は本質的にサービス拒否(DoS)攻撃が可能な状況を作り出してしまった。なぜなら,ほぼ同時に多くの人々が自分のコンピュータを再起動していたからだ。その結果,SkypeのVoIPネットワーク(もちろん同社は,多くの人が日々の音声通信にこのネットワークを信頼して使ってくれることを期待している)は,3日間使用不能になった。

 別の障害もあった。インターネットのバックボーン・ケーブルが切断されたのである。ケーブルが切断されたことにより,Level 3やCogent,TeliaSoneraが運営するネットワークの大部分がダウンした(関連記事(英文))。これら3社はいずれも多くのエンドポイントにインターネット接続を提供している。切断されたケーブルが発見されたとき,修理チームはうっかり破損したケーブルを別の破損したケーブルと交換してしまい,修理の効果が現れないことが明らかになるまで,交換に使用したケーブルの破損に気づかなかったのだ。結果として,障害が必要以上に長引いてしまった。その間,多くの組織や個人がインターネットに接続できなかったのである。この事件は,いずれか1社にすべての責任があったわけではない。しかし,大きな衝撃を与えた障害事例として,注目する価値はあるだろう。

 これらの出来事の意味について考え,次の質問を自分自身に問いかけてほしい。「企業がサービスとしてのソフトウエアへの依存度をどんどん高めている今,自分の企業ははたしてどれほど安全なのだろうか?」。この問題に興味がある人は,「Don't Trust the Servers(サーバーを信頼するな)」という記事を閲覧してほしい。