変換処理の見える化は大前提

出力編

日経SYSTEMS

2011.09.15

　業務上問題がないデータでも、分析で利用すると汚れたデータと見なされることがある。分析を前提に作ったデータではない場合、利用時に汚れたデータを生んでしまうのだ。出力編では、これをきれいにする対策を紹介する。

ブラックボックス化した処理に苦戦

　分析に使うデータは、生のデータを使うのではなく、複数のデータから項目をコピーし、仮想的なテーブル（キューブ）として利用することが多い。データを壊してしまう可能性があるほか、業務システムの性能劣化を招く恐れがあるからである。

　ところが、企業内にはこのキューブがいたる所で増殖しやすい。その結果、正体がよく分からないキューブを利用し、間違った分析をしてしまう。ユー・エス・イーの大沢英和氏（技術営業本部ビジネス情報サービスグループ BIS第四ユニットリーダ）と奥土居斉氏（事業推進本部アーキテクト推進室）も、あるプロジェクトでこの問題に直面した。分析用のアプリケーションの刷新で参加したとき、それまで使っていたキューブが約100種類もあり、その内容がさっぱり分からなかった。

　「似たようなキューブがいくつもある。抽出先がなぜそのデータ項目なのか、ブラックボックスの状態だった」（奥土居氏）。そこで取り組んだのが、変換処理の見える化である（図7）。

図7●変換処理を見える化する

企業内には複数のデータを参照・加工した「キューブ」と呼ぶ分析用データが氾濫している。ユー・エス・イーの大沢英和氏らは、これらを見える化し、誤使用の防止に役立てている

[画像のクリックで拡大表示]

　見える化は視覚的に表現しなければならない。大沢氏らはDBMSに付属のツールでまずキューブが参照するテーブルとデータ項目を洗い出した。これを全100種類のキューブについて実施。だが、問題は次の場面で起こった。変換処理を簡単に見える化する手がなかったのだ。処理はストアドプロシージャー（プログラム）しか存在しない。当時の設計者もチームにはおらず、結局プログラムの解読作業を始めた。

　それでも「どうしても理解できないロジックがあった」（大沢氏）。これについては諦めて、分析の用途からロジックをゼロから作り上げ、見える化した。「考えても分からないキューブはいったん捨てて、新たに作り出した方が早かった」（奥土居氏）。

　一度、変換処理を見える化しておけば、その後のメンテナンスは楽になる。大沢氏らは、分析用のデータ品質を維持するには、変換処理の見える化が不可欠なことを痛感したという。