NTT PF研(現ソフトウェアイノベーションセンタ SIC)と株式会社Preferred Infrastructure(PFI)は2011年に大規模リアルタイム解析エンジンJubatusをオープンソースソフトウェア(OSS)として公開し,現在様々なビッグデータ活用の現場での利用検証を進めている.本稿ではJubatusの公開までの経緯,及びその過程でどのような試行錯誤,判断があったかについて述べる.特にJubatusはリアルタイム,分散並列,そして深い解析という三つの目標をまず掲げ,その実現に向けて様々な試行錯誤を行った.この目標を実現する際に,どのような選択肢があり現在の構成を採用していったかについて述べる.また,Jubatusは異なる強みを持った複数の企業が共同で企画/研究/開発を行い,その成果をOSSとして公開するという新しい研究開発の形をとって開発されている.こうした連携の背景や,そのメリットなどについて言及する.

1. Jubatus開発の背景

 Jubatus(ユバタス)はNTTソフトウェアイノベーションセンタ(以下NTT SIC)とPreferred Infrastructure(以下PFI)が2011年より研究開発を開始し,2011年10月よりOSS(オープンソースソフトウェア)として公開[1],その後も開発を継続しているプロジェクトである.

1.1 現在のビッグデータ解析

 21世紀に入り,あらゆる分野で巨大なデータが生まれるようになった.こうしたデータはサイズが非常に大きい,生成速度が速い,データが多様であるといった特徴があり,これらをビッグデータと呼ぶ.

 元々ビッグデータ解析はウェブ業界で生まれ,特にGoogleやAmazonなどは大量のデータを蓄積し,データを活用し,ビジネス上の競争優位性を高めていった.例えば,広告配信の最適化や,検索エンジンのランキングの最適化,ECサイトのレコメンデーションなどである.

 こうしたビッグデータを活用しようという動きは,ウェブ業界から他の領域に広がりつつある.例えば,自動車,工場,病院,農業,製造業,エネルギーといった分野においては大量のデータが今後生成されると考えられ,これらのデータ活用を行うことで新たなビジネス開発や課題克服につなげられると期待されている.

 新しい種類のセンサの開発や通信技術の開発,データ蓄積のための基盤,クラウド技術の整備が進むにつれ,ビッグデータ解析における課題は,データの収集・蓄積から,データをいかに解析し活用するかに移りつつある.