社会保険庁の消えた5000万件の年金問題から、生損保の過払い・未払い、巨額の株式誤発注まで、品質の劣化したデータは企業のシステムにさまざまな問題を引き起こす。品質劣化問題の構造に加え、トラブルを起こさないためデータの品質維持・向上に努めるJALやキヤノン、キリン・グループ、ノーリツなどの取り組みを追った。

(玉置 亮太、高下 義弘)

データ品質は必ず劣化する
設計、入力、運用で闘う
目指すは「データ優良企業」


【無料】サンプル版を差し上げます 本記事は日経コンピュータ10月1日号からの抜粋です。そのため図や表が一部割愛されていることをあらかじめご了承ください。本「特集1」の全文をお読みいただける【無料】サンプル版を差し上げます。お申込みはこちらでお受けしています。 なお本号のご購入はバックナンバーをご利用ください。

 社会保険庁の消えた5000万件の年金記録、業界全体を巻き込んだ生損保の未払い・過払い、株式の誤発注による巨額の損失――。これらの事件・事故はすべて、「質の悪い」データが引き起こした。間違いや漏れ、重複といったデータの品質劣化は、システム、ひいては企業経営に大きな影響を与える。

 品質を劣化させたデータが関係する問題はさまざまだ。誤った受発注や不正確な分析に基づいた生産計画は、企業の収益を直撃する。間違ったデータを基にした分析は、企業の進路を惑わす危険性すらある。寸法が合わず利用できない部品、身近なところでは宛先不明で返送されるダイレクトメールも、誤ったデータが引き起こすものだ。

 にもかかわらず、多くの企業が品質に問題を抱えるデータを利用し続けている。データ品質の低さを自覚していない企業、人海戦術でなんとか修正できると考える企業、理由はさまざまだ。

 長年にわたって、コンサルタントとしてデータの品質を調べてきたテックバイザージェイピーの栗原潔氏は「欧米では『Data Quality』、つまりいかにデータの質を保つかが、学問の1分野として確立している。これに対して日本では、データ品質をテーマにした専門書を見つけるだけで一苦労だ。企業の情報システム部門など一部では問題意識が高いにもかかわらず、なおざりにしてきた」と指摘する。

 しかも誤ったデータを修正することは簡単ではない。問題を抱えたデータであっても、いったんシステムで管理するようになると、ネットワークを経由して複数のシステムで利用することになるからだ。

 「現実には間違っているにもかかわらず、正しいと認めてしまったデータが広まった後で、それを修正することは難しい」(栗原氏)。

 データの品質劣化はどのような問題を引き起こしており、企業はどう対処しているのか。データを最大限に活用するためにはどういった取り組みが求められるのか。システムの価値を決めるデータのあり方に迫る。

「データ品質は必ず劣化する」

 「一連の問題は、情報システムにかかわるすべての人間にデータ品質の重要性を改めて突き付けている」。KDDIのCIO(最高情報責任者)を務め、現在は情報システム総研の社長としてコンサルティングを手掛ける繁野高仁氏が指摘するのが、社保庁のいわゆる“消えた年金5000万件”騒動である。

 消えた年金記録問題の実体はデータにかかわる不手際そのものだ。個人と年金番号を正確に結び付ける仕組みがなく、転職した際などに過去の年金記録を引き継げていなかった。しかも年金の受給そのものが加入者任せの申請主義で、過去のデータを修正するための組織的な仕組みが不完全。これに入力間違いが重なった。

 今年9月10日には、5000万件のうちの約1割を占める524万件については、氏名を入力していなかったことが明らかになった。データ入力のずさんさを象徴する出来事である。

 社保庁で、消えた年金記録問題が顕在化したのは、1997年の国民年金、厚生年金、共済年金の年金番号体系と年金番号の統合作業でのことだ。個別に分かれていたデータベースを照合する過程で2億件の不明記録が判明した。

 その後10年をかけて名寄せを進めたにもかかわらず、5000万件が不明のまま。政府は年内にもこの問題を解決すると発表したが、先行きは予断を許さない。

 「ひどい話だ。データの管理がまったくなっていない」。社保庁の年金記録問題で、このような感想を抱いた人は多いことだろう。

 しかし、考えてみてほしい。「正しいと思っていたデータが、実は間違っていた」「会議資料に掲載した販売実績のデータと、社長が見ているデータが食い違っていた」――。あなたの会社でも、似たような問題と、それに起因する現象が起きていないだろうか。

他人事でないデータ品質問題

 「データ品質の劣化によるトラブルは、多くの企業にとって他人事ではない」。データモデルを中心に据えたシステム構築のコンサルティングを手掛ける、ビジネス情報システム・アーキテクトの手島歩三代表取締役はこう断言する。

 企業が扱うデータ量の増加、システム間連携ニーズの拡大、インターネットを介した社内外とのデータ授受の広がり。こういった情報システムの潮流も、データ品質をより重要な問題として浮かび上がらせている。

 データの品質は、データを適正な形で保持・運用できるかどうかで決まる。(1)データが間違っていたり、重複している。(2)定義や意味、使い方が社内でバラバラ。(3)ルールが不完全で想定外のデータが発生する。このような状況が起きている場合、データの品質が劣化していることになる()。

図●データ品質劣化の原因
図●データ品質劣化の原因  [画像のクリックで拡大表示]

Case1 間違いや重複

 キーボードの単純な打ち間違いや見間違い、聞き取りのミスで「日経」を「日程」と取り違えて登録する。変換ミスで「渡邊」を「渡辺」と登録する。「5丁目6番1号 第一マンション205号室」ではなく「5-6-1-205」と住所を入力していたため、顧客データベースで別人として管理してしまう。更新すべき住所データを放置する。

 単純なデータの間違い・重複だが、積み重なればデータ品質は確実に劣化する。ケタ数の入力ミスは、受発注にかかわるシステムであれば、企業の利益に重大な影響を及ぼし得る。

 ネット取引の増加につれ顕在化してきたのが、不正行為を目的とした意図的な「多重登録」によるデータ品質の劣化である。この問題に直面している企業がヤフーだ。

 同社は年間で8000億円以上の品が取引される「Yahoo!オークション」を提供している。ここで過去数年にわたって問題となっているのが、出品者の不正行為である。

 対策の一環としてヤフーは、オークションへの出品に必要な暗証番号を出品者の住所に送付する。この時、住所の記述で「-」の代わりに「★」を使ったりアルファベット表記を併用したりして、登録上は別の出品者に見せかけ、不正者リストとの照合から逃れようとするケースが後を絶たない。問題の解決のため、同社は人間によるチェックに加え、テキスト・マイニングの手法を応用した名寄せツールなどを活用している。


続きは日経コンピュータ10月1日号をお読み下さい。この号のご購入はバックナンバーをご利用ください。