関西中心に事業を展開する通信会社ケイ・オプティコムは、これまで発見困難だったネットワークの障害(サイレント障害)を検知するため、機械学習による異常検知の仕組みを導入した。2016年6月末に本格運用を開始している。従来の障害検知手法で課題だった誤検知も、1割以下に削減できた。

 製品の選定過程では約2カ月かけて大手ベンダーやベンチャーの製品を評価した。机上の製品比較にとどまらず実データによる効果検証を実施し、最終的にベンチャーの製品を採用している。構築時もベンダーにノウハウを提供することで、機械学習による異常検知のアルゴリズムを改善した。

 ケイ・オプティコム技術本部 技術システムグループ 監視運用システムチームの谷岡弘規リーダーは、「従来発見できなかった障害を漏れずに検知できる体制が整った。保守費用や将来監視対象の機器を追加するときの費用も、大手ベンダー製品と比べて抑えられた」と胸を張る(写真1)。

写真1●左からケイ・オプティコム技術本部 技術システムグループの目黒喜治グループマネージャー、監視運用システムチームの谷岡弘規リーダーと赤井夢佳氏
写真1●左からケイ・オプティコム技術本部 技術システムグループの目黒喜治グループマネージャー、監視運用システムチームの谷岡弘規リーダーと赤井夢佳氏
[画像のクリックで拡大表示]

 ケイ・オプティコムは、従来から様々な手法でネットワークの品質維持や向上に取り組んできた。その中でも解決すべき課題だったのが、「サイレント障害」と呼ぶ従来の検知方法では発見が困難な障害だった。

 サイレント障害は障害の発生に気付きにくい性質を持つ。原因の特定や復旧には膨大な時間がかかる。ケイ・オプティコム技術本部 技術システムグループ 監視運用システムチームの赤井夢佳氏は、サイレント障害の特徴をこう説明する。「ネットワーク機器が故障した場合は警告が出るが、サイレント障害は故障まで行かない状況で突然通信ができなくなる。機器メーカー側でも原因はよく分かっていない」。

 大規模なネットワークインフラを運用する通信会社にとって、サイレント障害を完全に回避することは難しい。発生頻度は低いものの「顧客からの問い合わせを受けて原因を特定するだけでも最低30分はかかってしまう」(谷岡氏)ため、顧客に及ぼす影響が大きい。通信に対する信頼を確保するうえでも放置できない課題だった。

しきい値監視を試みるも別の問題を引き起こす

 同社は苦肉の策として、トラフィック(ネットワーク上のある地点を流れるデータの量)が一定のしきい値より低くなった場合に、障害発生の警告を出す手法を採用していた。しかし、この手法は障害対応担当者の負荷を増やすという副次的な問題を招いた。谷岡氏は「夜間や土日、祝日などでトラフィックが下がると、しきい値の下限を超えてしまい大量の警告が発生していた」と語る。