企業システムは「業務で扱うデータ」を保管し・適切に出し入れする仕組みである。データは日々の業務の遂行を支え、またデータからその企業の姿を分析することができる。しかし、データの信頼性が低ければ適切な分析結果が得られない。そもそもどんなデータを保持しているか完全に把握できていない企業も多い。こうしたデータに関わる問題は多くの企業を悩ませている。実はその根は深い。本特集では、このような問題を抱えたデータを「バッドデータ」と呼び、その問題と対策を考察する。

 近年、データ分析がブームである。これまでシステムの副産物な扱いをされていたデータを様々な手法で分析することで傾向や相関を見つけ出し、ビジネス上意味のある情報に転換する。そうしたデータ分析手法や、分析できる人材のスキルが話題に上っている。実際に、データ分析の専門部署を設けた企業、大量のデータを蓄積/処理するための基盤システムを構築した事例、といった記事も多い。

 しかし、実際にデータ分析に着手し始めてみたものの、「データ分析以前の問題」につまづいた、という声も筆者は多く耳にしている。

 そもそも従来のデータ分析の成功例として語られている事例の多くは「いささか限定的」であるとも言える。例えば「ある単一の販売管理システムの顧客の購買履歴から、新たな傾向を発見した」といった事例は、対象データ自体はシンプルで、それに対して高度な分析手法を駆使して結論を導くタイプのものだ。ビッグデータの事例も、量は多くてもデータの性質として比較的分析しやすい「筋が良いもの」の事例が多いように思える。

 ところが実態として、現実のデータに向き合った途端、様々な問題が噴出する。企業内の各システムが出力するデータを捨てずにデータウェアハウスに蓄積しさえすれば、あとは優秀なデータサイエンティストが、「石」を除き「玉」を取り出してくれる、といったことは幻想である。現実に企業で発生している問題は、データ分析担当が解決できるものもあれば、分析担当だけでは対処が困難なものもある。

 第1回の今回は、バッドデータによってデータ分析をしようとしてもうまくいかないケースを紹介したい。全てのケースが実際に筆者が遭遇した例ではなく、データ名称などの固有名詞は分かりやすいように変更してある。また、見聞きした事例やそれらを複合して作成した事例も含んでいるが、いずれも典型的なパターンである。対象とするのは、「企業活動のデータ」だ。企業活動は複雑怪奇なもの。そこで生み出されるデータも、当然その混沌をはらんでいるのである。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。