動かないコンピュータForum


動かないコンピュータ・フォーラム 第38回

公的ITインフラのトラブルはどこまで許されるのか

動かないコンピュータ・フォーラム 主宰者
中村 建助=日経コンピュータ編集

日経コンピュータを読む理由No.1 「動かないコンピュータ」連載が単行本になりました。全国の書店でお求めになれます。

 10月3日、東京証券取引所の株式売買システムが、株取引を正常に処理できないという異常事態が発生した。みずほフィナンシャルグループの株式の売買で、本来処理しなければいけない1128株分の売り注文を残したまま、その日の取引を終わらせてしまったのである。新聞等でも大きく報じられたので、このシステム・トラブルをご記憶の方も多いだろう。

 トラブルの原因は、株式売買システムのプログラムの不具合だった。言うまでもないことだが、東証の株式売買システムの最大の役目は株取引を成立させることである。編集部内からは、「このトラブルはダウン以上にあってはならないこと。昨年のみずほ銀の統合に伴って発生したシステム障害に匹敵する」という意見も出たほどだ。

 果たして今回の東証のトラブルが、みずほ銀行の大規模システム障害と並ぶ規模のなのかどうかは分からないが、最近、こうした社会のインフラに近いシステムで最近、障害が相次いでいることは確かだ。本誌の動かないコンピュータでも、こういったシステムの障害を取り上げることが増えている。ITが企業活動や生活により不可欠な物になっている以上、今後もこうした傾向は避けられないことかもしれない。

 そこで今回は、こういった「公共ITインフラ」とでもいうべきシステムのトラブルはどこまで許されるのかどうかについて、動かないコンピュータ・フォーラムで考えてみたいと思います。いつものように皆さんからのご意見をお待ちしています。ご意見を書き込まれる方は、この画面の一番下の方にある「Feed Back!」を使ってお書き込み下さい。

公共ITインフラで相次ぐトラブル

 まず東証以外の公共ITインフラの障害の実例を挙げてみたい。

 今年3月に航空管理システムがダウンして、空のダイヤが大きく乱れた。欠航と大幅な遅延が合わせて1700便以上、30万人以上の航空機の利用客が、空港に足止めされた。システムが原因で起きたトラブルとしては航空史上最大のものとなった。原因はプログラムに残されていた不具合(バグ)だった。ダウンの数時間前に実施したシステムの変更によって、不具合が顕在化することになった。

 その内容は、「航空管制システム障害は防げた!(上)」と「航空管制システム障害は防げた!(下)」に詳しい。

 5月には、ネット専業銀行のジャパンネット銀行のシステムに障害が発生して、約22時間にわたってすべての取引ができなくなった(詳しくは6月2日号「動かないコンピュータ」をお読み下さい)。67万の口座のすべてが利用できなくなったのである。ハードの増設に伴う設定の変更によって、利用しているミドルウエアの不具合が顕在化してシステムがダウンしてしまった。

 7月には、日本銀行と金融機関の決済処理に利用する「日銀金融ネットワークシステム(日銀ネット)」に障害が発生した(詳しくは日経コンピュータ8月11号「動かないコンピュータ」をお読み下さい)。七つの金融機関との取引が停止してしまい、その影響で取引終了時間を1時間30分延長することになった。電文の送受信処理がきっかけでプログラムの不具合が顕在化した。

 8月末には、JR西日本の運行管理システムの不具合が原因で、電車のダイヤが乱れるというトラブルが起きた(詳しくは日経コンピュータ10月6日号「動かないコンピュータ」をお読み下さい)。1万5000人の足に影響が出た。運行管理システムの不具合が原因で、JR京都駅内に停止中の上り電車と同じ線路に下り電車進んできて、2両の電車が300メートルの距離で向かい合うことになった。JR西日本は電車の保安と運行管理は別々に管理しているので、電車の衝突といった事故が起きる可能性はなかった。だが、異常に接近した2両の電車を移動させて正常に電車が運行できるようにするために時間がかかり、これが後続の電車の運行に影響を与えた。

 今年に入ってほぼ2カ月に一度の割合で、様々な公的ITインフラでトラブルが起きている計算になる。金さらに、融機関における小規模なATM(現金自動預け払い機)の障害まで勘定に入れる、年間に何度も障害が起きているのが現状だ。あえて乱暴な比較をするが、情報システムを公的なインフラと考えると、水道や道路、電話などと比較した場合には不安が残っている言わざるを得ない。

システムに障害をゼロにすることはできない

 一方で、システム障害が増えるのはやむを得ない面もある。公的ITインフラと呼ぶべき情報システムは、一般に大規模で複雑なものが多い。その開発は数年に及ぶことが一般的であり、完璧なものを作り上げるのは難しい。システム・ダウンの確率をゼロにすることはまず不可能だ。

 しかも、公共のインフラのような使われ方をしているため、一度システム障害が起きてしまうと。影響がすぐに広範囲に及びやすい。システムがクリアすべき品質面のハードルは非常に高い。

 もちろん、システムを開発している企業もこういったことはよく分かっている。JR西日本や日銀、東証はトラブルの原因となったシステムの稼働前に大規模なテストを実施している。それでも、現実には不具合を消すことができなかった。これだけ大規模なシステムになると、システムの利用形態をすべて想定してテストすることは不可能に近いからである。

 航空管制システムは、プログラムの追加開発、修整を続けるなかで不具合の検証が甘くなり、障害発生につながった。こういった大規模システムは、巨額な開発コストが必要なために、一度動き始めると長期間にわたって利用することが多い。稼働後の改修に対するテストを徹底させることも簡単ではない。

 ちなみに、これらの公共ITインフラの開発を請け負っているのは、NEC、富士通、日立といった大手コンピュータ・メーカーが大半である。大規模システムの開発の実績が最も豊富なこれらのメーカーを持ってしても、システム障害は避けることができない。ジャパンネット銀行の場合は、皮肉にもシステムの可用性を高めるために利用していたミドルウエアの不具合がトラブルの原因となった。

無尽蔵にコストがかけられるわけではない

 また、システムの障害をなくすためにどれだけの備えを取るべきか、あるいはコストをかけるべきなのか、という問題もある。システムの障害を避けるためにはハードの二重化から始まって、地震などの災害が起きても問題ないように、同じ機能のシステムを2カ所以上に構築して切り替える、といった方法があるが、耐障害性を高めるに従って必要になる費用は膨大なものになる。公的ITインフラとはいえ、一企業が運用しているシステムでは、どうしても使えるコストに限界があるからだ。

 実際に障害が発生した場合に備えた、危機管理の体制をどうすべきかという問題もある。残念ながら、航空管制システムやジャパンネット銀行では、障害によってシステムの運用に甚大な影響が生じてしまった。果たして危機管理の体制が万全だったかどうか疑問の残るところである。

 実はこの問題に少し似たテーマについては、以前の動かないコンピュータ・フォーラムでも取り上げたことがある。第9回の「システムは止まることもある」(このフォーラムは読者限定になっています。日経コンピュータ読者でない方はお読みいただけません。ご容赦下さい)がそうである。

 第9回のフォーラムでは、特にシステム・ダウンによって銀行のATMが停止することに絞って議論を進めていた。当時のフォーラムの主催だった谷島宣之(現ビズテック局開発長)は、この問題について自分の意見を明らかにしている。以下に全文を引用する。「情報システムの可用性は、企業や組織がビジネスの観点から判断し、決定すべきである。そしてその判断を、一般利用者に、ビジネスを通じて訴える必要がある。報道機関(弊社を含む)も、ビジネスの観点からシステム・ダウンをとらえなければならない」。

 これに対して皆さんから様々なご意見を頂いた。皆さんのご意見を受けた総括編が第10回の第9回の「『可用性はビジネスに応じ判断すべき』だが『ATMは止めるな』」(この回も読者限定にです。ご容赦下さい)というものだった。「ATMは止めるな」という言葉がタイトルにあるのは、皆さんからのご意見のなかに、「せめてインフラだけは,絶対品質を追求しようじゃないか。それが安全の国、日本のただひとつの神話だったのだから。そんなところまで、グローバル・スタンダードでなくても良い気がする」というものがあったことが大きい。このご意見は正論だからである。

 記者は総括編に一つ付け加えたいことがある。例えば、その日のうちに銀行の振り込み口座を使って入金しなければ、倒産するかもしれない中小企業などにとって、ATMの障害が原因で締め切りまでに入金できないというのは死活問題である。システムを開発・運用する銀行の立場からみれば、可用性の確保のためにかけることのできるコストには限界があるのは当然のことだ。しかし、決済のための公的ITインフラとして金融機関を利用する立場から見れば、ダウンは許容できないのである。

公的ITインフラの役割は増大する一方

 いくつかの問題について触れてきたが、やはり公的ITインフラとしてのシステムの可用性や信頼性の問題を考えるのは難しい。だが、それでも公的ITインフラのあるべき姿については考えを進めるべきだろう。冒頭でも触れたが、ITは現在もどんどん社会に浸透してきているからである。

 JR西日本の障害がその好例である。意外かもしれないが、今回不具合が顕在化した運行管理システムが完成したのは昨年7月である。これまでは、運行管理システムがシステムが存在していなかったから、JR西日本ではシステム障害が起きなかったということもできる。公的なITインフラの導入の余地は我々が考えているよりも大きい。

 さて、ここからが本題です。皆さんは、金融機関や交通機関など、公的なインフラとしての側面を強く持っているシステムについて、どの程度のトラブルなら許され、どういったトラブルは許されないものだとお考えでしょうか。

 また許されないシステム・トラブルがあるとしたら、こういったトラブルを避けるためにどういった対策を施すべきでしょうか。以上の点について、皆さんからのご意見をお待ちしています。


今回のテーマへの投稿は10月31日(金曜)午後6時で締め切らせて頂きました。ありがとうございました。みなさまのご意見を基にした総括記事は、11月6日木曜に当サイトで公開する予定です。