NTTは2017年1月30日、ネットワーク機器などが発するアラーム(対処が必要な警報)などからネットワーク障害の原因を自動的に特定するための技術を開発した。AI(人工知能)を利用して、アラームと障害原因の間の因果関係(ルール)を導出する。NTTグループのAIの取り組みである「corevo」の一環として開発した。

 ネットワークの障害が発生した場合、“真の原因”の周辺にある複数の機器からアラームが上がることが多い。このため、障害の原因を特定するには、ネットワーク構成図やシステムの状況などを基に、手作業で問題を切り分ける必要がある。大規模なネットワークや複雑な仮想化システムなどで障害が起こった場合は、問題の切り分けだけで数時間から数日間を要することもあった。新技術を使うことで、こうした分析作業を数秒程度に短縮できるという。

 障害時にネットワーク装置などが発するアラームなどのイベントから、その障害に特有のイベントの組み合わせを抽出する。具体的には、それぞれの障害でアラームと障害の種類を紐付け、複数の障害に共通するアラームを削除するようにルールを修正していく。これにより、特定の障害に特有のアラームを抽出する。ルールの学習には、オープンソースの機械学習基盤である「Jubatus」を利用した。

ルール生成の仕組み
ルール生成の仕組み
(出所:NTT)
[画像のクリックで拡大表示]

 このシステムで推定した障害原因を、ネットワークの保守担当者がチェックする。推定が間違っていれば、担当者が修正する。障害が起こるたびに推定結果が正しいかどうかを人間がチェックすることで、推定の精度が上がっていくと期待できる。開発に携わったNTTアクセスサービスシステム研究所 アクセスオペレーションプロジェクト オペレーション方式SEグループ 主幹研究員の岡崎勝彦氏は「障害の頻度やネットワーク環境によって異なるが、数カ月から1年くらい運用を続けることで、推定が使い物になるようになると期待している」と語る。

システムの全体像
システムの全体像
(出所:NTT)
[画像のクリックで拡大表示]

 今後は、今回開発したルール生成エンジンを組み込んだ評価用システムを2017年3月末までに作成。その後、NTTグループ内に試験的に導入し、2018年度には実サービスでの利用開始を目指す。最終的には、通信事業者の大規模なネットワークで障害を特定できるようになることを目標とする。

[発表資料(NTTのプレスリリース)]

■変更履歴
本文で「ルールの実行には、一般に販売されているルールエンジンを利用しているという。」としていましたが、商用化にあたってのルールエンジンについては検討中とのことなので、この文章を削除します。本文は修正済みです。 [2017/1/31 10:55]