企業システムは「業務で扱うデータ」を保管し・適切に出し入れする仕組みである。データは日々の業務の遂行を支え、またデータからその企業の姿を分析することができる。しかし、データの信頼性が低ければ適切な分析結果が得られない。そもそもどんなデータを保持しているか完全に把握できていない企業も多い。こうしたデータに関わる問題は多くの企業を悩ませている。実はその根は深い。本特集では、このような問題を抱えたデータを「バッドデータ」と呼び、その問題と対策を考察する。

 前回、バッドデータによって分析不能になった四つの典型例を紹介した。今回はそれぞれの典型例についての対処法を解説する。

問題例1:データの詳細度が不足しているケースの対処法

 まず問題例1のデータの詳細度が不足しているケースだ。当然のことながら存在しないデータを分析時に作り出すことは不可能である。そのため、この問題に対処するためには、「分析の観点から追加開発の要求を継続的に発信し、それ以降の保守開発や業務の見直しにつなげる」という活動が必要になる。中期的な改善になるだろう。

 ちなみに前回示した、代理店経由での間接販売を強化した結果、分析精度が悪化した企業の後日談を紹介しよう。その企業は代理店と苦労して交渉を進め、集約された注文情報とは別に、不足していた個々の注文ベースの詳細データを分析用に入手するようにした。こうしてデータ分析側の要求に対応可能なデータをそろえ、分析精度を高めていったのである。

問題例2:データに予期せぬ値が入るケースの対処法

 次にデータに予期せぬ値が入るケースだ。このケースが起きた場合については、分析の事前作業として異常値を検知する仕組みを導入することで、ある程度は対処が可能である。

 例えば、(1)欠損しているデータ、(2)あらかじめ正しいと想定される値の範囲を定め、その閾値から外れているデータ、(3)これまでのデータの平均値を求め、その値から大きく外れている異常値を持つデータ、などを検知する仕組みを整える。検知したデータについては補完するか分析対象から除外する、といった対策を取る。

 ただし、ここで「ある程度」と言ったのは、正しい値の範囲などの「データの定義」が明確である必要があるためだ。データの定義が明確でなければ、分析担当者としては仮説でデータの補正を進めるしかないのである。先の例で言えば、「9999999」というデータ値も正しいデータである可能性が大いにあるからだ。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。