写真1●「社会の頭脳システム」について説明するNTTドコモ 先進技術研究所ネットワークシステム研究グループの田中 聡 主幹研究員
写真1●「社会の頭脳システム」について説明するNTTドコモ 先進技術研究所ネットワークシステム研究グループの田中 聡 主幹研究員
[画像のクリックで拡大表示]

 NTTドコモは2012年12月10日、分散処理ソフト「Apache Hadoop」の企業利用に関するセミナーにおいて、1000台を超えるIAサーバーで構成する社内向けHadoopシステムについて解説、Hadoopの有用性と運用時の課題を説明した。

 NTTデータが主催したセミナー「Hadoopエンタープライズソリューションセミナー2012」において、NTTドコモ 先進技術研究所 ネットワークシステム研究グループの田中 聡 主幹研究員が『社会の頭脳システムの構築と運用』と題した講演で紹介した(写真1)。この「社会の頭脳システム」は、モバイル通信インフラを活用して社会の様々な課題解決を支援する新サービスを開発・実行する目的で、ドコモが2009年から取り組んでいる社内向けシステムである(関連記事)。

 「社会の頭脳システム」は、遠隔地に設置した計1018台の汎用サーバーから成るHadoopクラスタと、オフィスビル内に設置した4台の保守・運用・監視系サーバーで構成する。その特徴は汎用サーバーで構成することに加え、オープンソースソフトウエアを活用していること。具体的には、サーバーネットワークの死活監視やサーバーのログ監視などに障害検知ソフトの「Nagios」、CPU使用率やメモリー使用量、ネットワークなどの監視にリソース監視ソフトの「Ganglia」やトラフィック監視ソフトの「Cacti」を利用している。

 このシステムを「約15名の分析チームが利用している。システムの稼働率は運用開始後約2年の実績で99.5%。1000台ほどのスレーブノードを維持したまま、データロスなしで3年間継続して運用している」(田中主幹研究員)という。加えて、「おおざっぱに言って、月に10台ほど故障する。故障原因の解析などを含め、Linuxに詳しい技術者であれば約1000台を1人で面倒見られる」(同)ことが3年間の運用実績から分かったという。

 これまで経験したトラブルの例としては、二重化しているネームノードの設定ミスがある。これにより、二重化に必要なファイルがコピーされずエラーが発生していた。対処して事なきを得たが、「メモリー枯渇を含め、ネームノードの運用がポイント」(同)と強調した。

 大規模なHadoopシステムを継続運用して分かったのは、「Hadoopは柔軟で強力なデータ処理基盤であること」(同)。同時に以下の3つの課題も見えてきた。1つは増え続けるデータへの対処。扱うデータが膨大なため、計算結果も膨大になり、その管理が課題になるという。二つめの課題は、データを継続して収集することへの負担増である。日々発生するデータを発生源から継続して収集するのは相応のコストがかかるためだ。そして3つめの課題はリアルタイム処理。直近のデータをすぐに解析し、結果を見たいという要望が多いという。今後はこうした課題を見据えながら「社会の頭脳システム」を用いたサービスの実現を目指していく。

■変更履歴
当初、田中聡氏の所属組織を「先端技術研究所」としていましたが,正しくは「先進技術研究所」です。お詫びして訂正します。本文は修正済みです。 [2012/12/11 14:05]