![]() |
1. 6システム,5800万件に及ぶ膨大な顧客データを名寄せした 2. 東京都のデータでプレ名寄せしたが,数の多さと極端な特性に苦戦 3. 広島県のデータ使い,有効な名寄せの条件をつかんだ |
![]() |
エプソン販売は“顧客データベース”を持っていなかった。同社はPCやプリンタなど情報通信機器を販売しているが,企業向けの場合は代理店経由の間接販売が主体である。出荷データや商談データに顧客情報を含んでいるが,顧客情報をマスター・データとして整備していなかった。その結果,「どの顧客企業がどれくらい自社の製品を使ってくれているのかが分かりづらく,効果的な販売促進や代理店支援を行えなかった」(情報化推進部 部長 宮下大氏)。そこで宮下氏らは複数システムの顧客データを統合するプロジェクトを立ち上げ,約1年をかけて「統合顧客データベース」を構築した。
プロジェクトの最大の課題は顧客データの件数が膨大だったこと(図1)。マスター・データを統合するのではなく,取引データ1件1件を格納したトランザクション・データから顧客情報を抽出し,会社名や住所,電話番号といったデータを基に名寄せ(同じ企業のデータを一つにまとめる)処理をする必要があった。対象となったのは,出荷データ,商談データ,修理データ,保証書データなど,6システムのトランザクション・データである。過去10年分までさかのぼり,そのデータ総数は5800万件になった。紙ベースのデータは無いとはいえ,あの社会保険庁が取り組む名寄せ対象の年金記録データを上回る数である。
データ品質が低いという課題もあった。「フォーマットや,会社名の表記はバラバラ。なかには社名のフィールドに会社名とともに担当者の氏名を格納しているデータもあった」(宮下氏)。
「統合した後で訂正するのは難しい」
5800万件の顧客データをどのように名寄せしたのか。
まず宮下氏らは,名寄せの方針を立てた。名寄せ処理では“同一”であると判定する条件を指定するが,その条件によっては同じ企業のデータを異なる企業のデータと認識したり,異なる企業のデータを同じ企業のデータと認識したりする可能性がある。
「異なる企業と見なした同じ企業を後から見つけるのは比較的容易だが,その逆,異なる企業なのに同じと判断して統合した企業データを後から訂正するのは難しい」(情報化推進部 担当課長 金子健二氏)との考えから,「異なる企業のデータを同一と判断しないこと。その逆は許す」という方針を立てた。
次に,この方針に合う名寄せ条件を見つけるべく,一部のデータで試す「プレ名寄せ」を実施した。いきなり膨大な量のデータを処理しても,その確認作業に多くの時間がかかる。そこで,どのような条件で名寄せすればよいかという名寄せの条件を,プレ名寄せによって導き出そうと考えた。
名寄せ処理にはクレンジング/名寄せソフトの「Trillium Software System」(販売元はアグレックス)を用い,データ参照用に国内の企業データを集めた「LBC」(販売元はランドスケイプ)を用いた。LBCには「企業グループ」の情報も含まれており,名寄せ処理の際にこうした情報を統合顧客データベースに加えようと考えた。Trilliumを用いれば,条件(例えば,社名が全く同じなら同一企業と見なす)を指定するだけで名寄せ処理できる。だが,同じ企業のデータを異なる企業のデータと認識しているといったことは,人でないと判定できず,結果の分析は目視で行う必要があった。