写真●「バーチャルデータサイエンティスト」の概念図
写真●「バーチャルデータサイエンティスト」の概念図
[画像のクリックで拡大表示]

 国際訴訟支援サービスを手掛けるUBICは2013年11月7日、買収した会社の資産評価をしたり、社内不正の予兆を捉えたりするソリューションを2014年度第1四半期に提供すると発表した。同社がフォレンジック(電子データの収集・解析)ソフトを実現するために開発した、人間に代わってデータ分析を行うプログラム「バーチャルデータサイエンティスト」を活用。ここで開発した機械学習手法を、フォレンジック以外の領域に適用する。

 同社は、弁護士が不正の証拠を探す際に行う文書の分類作業をプログラムが学習することで、プログラムが弁護士のように不正文書か否かの分類作業を行えるようにするフォレンジックソフトを、2013年秋に発売していた。ここでは、弁護士による文書の分類作業を「教師データ」として機械学習を行っていた。

 今回UBICが採用した機械学習手法は、「プレディクティブ・コーディング」と呼ばれるもので、文書に含まれる単語の「伝達情報量」を手がかりに、文書の内容に重み付けをし、その重み付けを元に他の文書の重要性などを判断していた。

 UBICの守本正宏社長は、「このプレディクティブ・コーディングを、フォレンジック以外の分野に適用できると考えた」と説明する。フォレンジックソフトでは、弁護士の作業を学習していたが、学習する対象を会計士などに変えれば、会計分野での重要文書の分類などを自動化できる可能性があるという。フォレンジックソフトでは、過去の文書を調査することで不正を探し出すが、調査対象を直近の社内文書に変えれば、不正の予兆の検出が可能になるとしている。

 プレディクティブ・コーディングを使用すれば、人間の代わりにプログラムがデータを分析できるようになる。そう考えた同社はプレディクティブ・コーディングを活用したソリューションを「バーチャルデータサイエンティスト」と名付けて売り込む(写真)。将来的には、医療やビジネスインテリジェンス(BI)の分野にも、プレディクティブ・コーディングを適用していくという。