企業が管理している大量のメールや文書ファイルに優先順位を付ける技術。米国で訴えられた企業に義務付けられている証拠データの提出で、作業の負担を軽減する技術として期待が高まる。


 「特許を侵害された」「製品を使ったら被害が出た」――。米国でこのような民事訴訟を起こされた場合、日本企業は社内にある「証拠」を自ら集め、裁判所に提出することが求められます。米国では裁判になる前、必要な証拠を出し尽くしたうえで、裁判をするのか和解に持ち込むのかを決めるからです。

 被告である企業が提出しなければならない証拠は、紙の文書だけではありません。2006年に施行された「eディスカバリー」という法律によって、メールや文書ファイルといった企業が管理している電子データも対象になっています。

背景:訴訟での作業負担高まる

 これらの電子データの中から証拠を抽出する技術としてここ数年、プレディクティブ・コーディングという技術に、注目が集まっています。予測符号化と訳されるこの技術は、証拠となる一部のデータを分析し、その結果を受けて、残りのデータから証拠となり得るデータかどうかを機械的に判断するというものです。

 この技術を搭載したソフトやクラウドサービスが判断した結果は、証拠となり得るデータから、証拠となる可能性の低いデータへと優先順位を付けたランキング形式で示されます。このためプレディクティブ・ランキングとも呼ばれます。

 注目が集まる背景には、企業が管理する電子データが膨大になって、証拠を探す作業が大きな負担になっていることが挙げられます。大企業になると、社内のファイルサーバーや社員のPCなどにあるメールや文書ファイルは合わせて数百万件に上ることも珍しくありません。「企業の担当者が手作業で証拠かどうかを1件ずつチェックするやり方だと、1億円といったコストがかかってしまう」と、米国訴訟に詳しい、UBICの守本正宏社長は指摘します。