NECは2016年5月26日、データに混在する複数の規則性を、分散コンピューティング環境で100倍以上高速に発見する技術「分散版異種混合学習技術」を開発したと発表した。
コンピュータ1台のメモリーには収納しきれない大規模データを分析するのに適している。例えば、大手金融機関のATM残高予測や、大規模通信事業者の解約予測など、数千万件以上のサンプルでデータを解析できる。
NECは同技術を、2016年6月6日から米サンフランシスコで開催されるSpark Summitなどで発表する。2017年度の実用化を目指す。
コア数128倍で学習速度110倍
NECが2012年に開発した異種混合学習技術は、サンプルデータを元に複数の予測モデル群を自動生成するとともに、状況(天気など)に応じて複数の予測モデルから最適なモデルを自動的に選び出すことができる。
今回開発した「分散版」は、Apache Sparkをベースにしたもの。まず、複数のコンピュータにランダムにデータを配分し、それぞれが局所的に予測モデル群の生成と学習を行う。
次に、これらの予測モデル群を1台のサーバーに集め、独自のアルゴリズムで統合した上で、複数のコンピュータに配布する。「一種の多数決のような仕組みで、複数の予測モデル群から、最も優れた予測モデル群を生成している」(NEC Knowledge Discovery Research Laboratories, Big Data Analytics, Research Fellow and Team Leaderの藤巻遼平氏)。
これを繰り返すことで、予測モデル群の学習を、従来より速いスピードで、かつ高精度なモデルへと収束させることができるという。
NECは分散版異種混合学習技術のスケール性能を確認するため、1万台のATMから取り出した計1000万件のサンプルデータを基に、現金残高を予測するモデルを生成する実験を行った。
この実験の結果、分散版はCPUコア数を128倍にすることで、学習速度を約110倍に高速化でき、予測精度も約17%向上したという。
実験で使用したハードウエアは、従来版はノード1台、総CPUコア数1、メモリー256Gバイト。分散版はノード10台、総CPUコア数128、メモリー2.5Tバイトである。学習用サンプルデータは、いずれも256Gバイトに収まる容量を入力した。