業務上問題がないデータでも、分析で利用すると汚れたデータと見なされることがある。分析を前提に作ったデータではない場合、利用時に汚れたデータを生んでしまうのだ。出力編では、これをきれいにする対策を紹介する。

ブラックボックス化した処理に苦戦

 分析に使うデータは、生のデータを使うのではなく、複数のデータから項目をコピーし、仮想的なテーブル(キューブ)として利用することが多い。データを壊してしまう可能性があるほか、業務システムの性能劣化を招く恐れがあるからである。

 ところが、企業内にはこのキューブがいたる所で増殖しやすい。その結果、正体がよく分からないキューブを利用し、間違った分析をしてしまう。ユー・エス・イーの大沢英和氏(技術営業本部 ビジネス情報サービスグループ BIS第四ユニット リーダ)と奥土居斉氏(事業推進本部 アーキテクト推進室)も、あるプロジェクトでこの問題に直面した。分析用のアプリケーションの刷新で参加したとき、それまで使っていたキューブが約100種類もあり、その内容がさっぱり分からなかった。

 「似たようなキューブがいくつもある。抽出先がなぜそのデータ項目なのか、ブラックボックスの状態だった」(奥土居氏)。そこで取り組んだのが、変換処理の見える化である(図7)。

図7●変換処理を見える化する
図7●変換処理を見える化する
企業内には複数のデータを参照・加工した「キューブ」と呼ぶ分析用データが氾濫している。ユー・エス・イーの大沢英和氏らは、これらを見える化し、誤使用の防止に役立てている
[画像のクリックで拡大表示]

 見える化は視覚的に表現しなければならない。大沢氏らはDBMSに付属のツールでまずキューブが参照するテーブルとデータ項目を洗い出した。これを全100種類のキューブについて実施。だが、問題は次の場面で起こった。変換処理を簡単に見える化する手がなかったのだ。処理はストアドプロシージャー(プログラム)しか存在しない。当時の設計者もチームにはおらず、結局プログラムの解読作業を始めた。

 それでも「どうしても理解できないロジックがあった」(大沢氏)。これについては諦めて、分析の用途からロジックをゼロから作り上げ、見える化した。「考えても分からないキューブはいったん捨てて、新たに作り出した方が早かった」(奥土居氏)。

 一度、変換処理を見える化しておけば、その後のメンテナンスは楽になる。大沢氏らは、分析用のデータ品質を維持するには、変換処理の見える化が不可欠なことを痛感したという。