炎上するビッグデータ関連プロジェクトに、何らかの共通項や法則はあるのか。著名ブロガーでありイレギュラーズアンドパートナーズ代表取締役のやまもといちろう氏と、ベストセラー「統計学が最強の学問である」著者で統計家の西内啓氏が、ビッグデータ関連プロジェクトの闇に斬り込む。

(構成:目次 康男=コンピュータ・ネットワーク局教育事業部)

連載第1回では、意思決定プロセスなどに潜む問題を取り上げました。今回は、ビッグデータに含まれている個人情報(パーソナルデータ)の取り扱いに関する問題に注目してみましょう。最近の炎上ケースを見ていて腑に落ちないのは、名だたる大手企業が多いということです。そういう会社であれば、データ活用に関するリテラシーは高く、セキュリティの専門家もいると思うのですが。

山本:確かに、多くの方はそう感じますよね。でも、実際にはそうでもないのです。複数の情報筋からの話をまとめると、トラブルを引き起こした企業は皆、パーソナルデータに対する「認識が甘かった」というのが理由のようです。

法律やガイドラインを理解していなかった、ということ?

山本:そうとも言えますが、重要なのはそこではありません。ビッグデータを活用する際に、「個人を識別するデータとは何か」を突き詰めて議論したり、専門家による評価を受けていなかった、ということでしょうか。

西内:統計の仕事をしていて感じるのですが、未だに個人情報は氏名や住所、電話番号だけ、と思っている人は少なくないんですよね。あるデータがあって、「名前の欄だけを消せば大丈夫ですよね」と真顔で聞かれることもあります。

山本:そうですね。さすがに世間を騒がせた大手企業の場合は、そこまで低いレベルではないと思いますが、匿名化に関する認識は甘かったようですね。個人名が記載されていなくても行動履歴のような特徴のあるデータの場合、ある程度のデータの塊を分析すれば関連性は見えてくるため、個人を特定することはそれほど難しくはないわけです。

 匿名化については、日経コンピュータやITproなどで解説記事(関連記事:「Suica履歴販売」は何を誤ったのか)が掲載されていますから、そちらをご覧いただくのがよいでしょう。