写真1●専門家が重要文書を分類するパターンをプログラムが学習して、そのパターンを元に他の文書の重要性を判別する
写真1●専門家が重要文書を分類するパターンをプログラムが学習して、そのパターンを元に他の文書の重要性を判別する
[画像のクリックで拡大表示]

 国際訴訟支援サービスを手掛けるUBICは2013年9月6日、犯罪捜査などのために電子データを収集・解析するのに使用するフォレンジックソフトウエアの新版「Lit i View Xaminer(リット・アイ・ビュー・エグザミナー)」を発表した。専門家が重要文書を分類するパターンをプログラムが学習することで、プログラムが重要文書を自動的に判別できるようにした。

 従来のフォレンジックソフトは、キーワード検索などで調査対象とする文書を絞り込むもので、文書の重要性そのものは人間が判断していた。Lit i View Xaminerではまず、弁護士などの専門家が重要文書を分類した結果(教師データ)をプログラムが学習する。プログラムは、重要な文書とそうでない文書に含まれる単語に重み付けをし、その重み付けを元に他の文書の重要性を判断する(写真1)。これらには、「プレディクティブ・コーディング」という機械学習の手法を採用している。UBICによれば、およそ90%の精度で重要文書を自動分類できるとする。

 Lit i View Xaminerは、1時間に33万件の文書を処理することが可能で、これは経験を積んだ4000人の弁護士の仕事量に匹敵するとしている。分類可能な言語としては、日本語、韓国語、中国語に対応。主に警察など官公庁に対して、9月から販売する。価格は分析対象のデータ容量別となっており、200ギガバイトの場合で150万円から。