価値がある(もしくは、あるかもしれない)にもかかわらず、収集・蓄積されるだけで活用されていないデータのことを、ダークデータと呼ぶことがあります。研究・開発者が収集する実験や調査、観測に関するデータは、「実験に失敗した」、「仮説を裏づけるものではなかった」など様々な理由でお蔵入りになることが少なくありません。研究室の片隅で“日の目を見ない”ことから、ダークデータと呼ばれるようになりました。このように元々は学術分野で使われていた言葉ですが、厳密な定義があるわけではありません。

 ダークデータを有効活用しようとする動きもあります。米バイオメド・セントラルは、創薬分野向けにダークデータに特化した無料のメディア「BMC Research Notes」を2008年に発刊。米グーグルは、科学分野を中心に膨大な量のダークデータを収集し、オープンソースとして公開しています。

 米国ではこのように5年ほど前から、学術分野のダークデータに注目が集まっていましたが、最近はビッグデータの潮流に乗り、その動きがより活発化しています。2012年からは、多くのIT企業がリリースやブログなどで、ビジネス分野でのダークデータの有効活用について言及するようになりました。

 今後、データ分析技術が進化するにつれ、ダークデータが宝の山に変わるという例も出てきそうです。「ダーク」というネガティブな語感と反対に、今後の“注目株”という期待を込めて使われることの多い言葉なのです。