富士通研究所は、データを分析しやすいよう整形したり、不足するデータを補ったりする前処理を自動化する技術を開発した。約8000件のPOS(販売時点管理)購買データによるマーケティング分析で試したところ、これまで5日かかっていた前処理の作業を約半日で完了できたという。2018年度の実用化を目指す。

 データを分析する前にデータ形式や表記、単位をそろえたり、複数のデータを結合して補ったりする前処理は「データ準備(data preparation)」と呼ばれる。例えば、時刻情報をキーにPOS購買データと天気情報を結合する前処理を行えば、天気と購買傾向の相関を分析できるようになる。

ICカード使用履歴とカード会員情報を組み合わせたデータ準備のイメージ
ICカード使用履歴とカード会員情報を組み合わせたデータ準備のイメージ
(出所:富士通研究所、以下同じ)
[画像のクリックで拡大表示]

 データ準備はデータサイエンティストなどの専門家が試行錯誤しながら実施するもので、一般にデータ分析作業の8割はデータ準備が占めるとされる。

 富士通研が開発したのは、データ準備を自動化できるソフトウエアだ。オープンソースソフト「OpenRefine」などのデータ整形ソフトに組み込むことで、自動化の機能を付加できる。

 具体的には、処理の対象になる複数のデータセットと、データ分析に使いたいデータ(正解データ)のサンプル数十件を用意すると、元のデータから正解データを生成するようなデータ変換のルールを自動的に割り出し、データ整形ソフトで使えるようにする。

複数のデータからデータの前処理を自動的に行う
複数のデータからデータの前処理を自動的に行う
[画像のクリックで拡大表示]

 自動化の処理を高速化するため、データの類似度から結合のキーとなるデータ例の候補を絞り込む、結合の組み合わせを効率的に探索するなどの工夫を取り入れた。

 富士通研はデータ準備を自動化することで、オープンデータを含む多数のデータセットを組み合わせる作業が容易になり、データ活用の幅が広がるとみる。同研究所はデータ収集・加工・利用などの技術を「Data Bazaar(データ・バザール)」の呼称で体系化しており、今回のデータ準備自動化はData Bazaarの基盤技術の1つと位置づける。

富士通研究所が開発している「Data Bazaar」の全体イメージ
富士通研究所が開発している「Data Bazaar」の全体イメージ
[画像のクリックで拡大表示]