写真●記者会見する鈴木義伯専務取締役(中央)
写真●記者会見する鈴木義伯専務取締役(中央)
[画像のクリックで拡大表示]

 東京証券取引所は2012年2月2日、東証のシステム障害で計300銘柄以上が売買できなくなったトラブルについて記者会見を開いた(関連記事1234)。株式取引システム「arrowhead」のうち、株価情報を証券会社などに配信する「情報配信システム」でハードウエアが故障。その後、バックアップ系への移行が正常に行えなかったのが原因という。

 東証の鈴木義伯専務取締役(写真)は、「投資家や取引参加者にご迷惑をかけ、お詫びする」と謝罪した。

 障害が発生したのは、2日の午前1時27分のことである。情報配信システムを構成する8セットのサーバー群のうち1セットに故障が発生した。

 この1セットは、富士通製のPRIMEQUESTサーバー3台で構成されており、通常は3台がそれぞれ銘柄を分担して株価情報などを配信する。

 このうち1台が故障した場合には、数秒で自動的に他の2台へ業務を引き継ぐことができる。常に3台のサーバー同士で互いのメモリーデータを同期しており、仮に2台が同時に壊れても、残り1台で処理を継続できる。つまり、いずれのノードも「本番系」という形で3重の冗長性を実現している。

 今回、この3台のサーバーノードのうち1台が故障した。このことを知った職員は、診断用ソフトウエアでシステムの状況を解析。この結果、2時半の時点で「2台構成への切り替えは正常に行われた」と判断した。

 同システムでは過去にも半年に1回ほどハードウエア故障が発生していたが、「いずれも数秒で切り替えに成功していた」(東証 株式売買システム部長の宇治浩明氏)という。このため、東証は2台構成のまま午前中の取引を行うことにした。

 だが実際には、2台構成への切り替えは失敗し、配信異常が発生していた。東証がこの事実を把握したのは、障害から約6時間後の午前7時40分だった。

 情報配信システムに障害が起きた場合、投資家に正しい株価情報を提供できなくなる。このため、東証は該当する銘柄の売買停止を午前8時50分に発表。これと前後して8時45分には、故障したサーバー群について、手動で強制的に2台構成へ切り替える措置を取った。その後にシステムの動作を検証した結果、10時ごろにはシステムの復旧を確認した。

 ただ、実際に取引を再開するには、証券会社に注文の再入力を依頼するなど、一定の準備時間が必要だった。このため東証では午前中の全面復旧を断念。午後に該当銘柄の取引を再開した。その後、故障したハードウエアの交換を実施したという。

 ハードウエア故障の原因や、診断ソフトウエアで異常を見抜けなかった原因については、現時点では不明という。原因が明らかになる前に同じの障害が発生した場合でも、「強制切り替えを行うことで、数分で復旧ができるとみている」(東証の宇治氏)という。東証は、arrowheadシステムの増強を行う2012年5月までに、システム障害の原因を突き止める考えだ。