データに間違いや重複がある。更新されていない。定義や意味が人や組織ごとにバラバラ。本来とは違った形で使われている…。

 ほとんどすべての企業に多かれ少なかれ存在する「データの品質問題」。古くて新しい問題は社会保険庁の“消えた年金記録5000万件”騒動をきっかけに,再び議論されるようになった。

 データの品質劣化はどのような問題を引き起こしており,企業はどう対処しているのか。データを最大限に活用するためにはどういった取り組みが求められるのか。取材結果は,ITproでも記事として掲載しているほか,日経コンピュータ誌10月1日号の特集「崩れるデータ品質」にも反映しているので,機会があればご一読いただきたい。

 この「記者の眼」でも,そのエッセンスの一部を紹介しよう。

 データ品質を維持・向上させるにはさまざまな側面から取り組む必要がある。ことシステム面について言えば,「データ・クレンジング」の仕組みが中核を担う。データベースを一件ずつチェックし表現のばらつきを整えたり,データの重複をなくしたりするシステムである。定義はさまざまだが,金融機関などで実施されている名寄せ処理もこの一環といえる。

 データ・クレンジングの正確さを左右するのは,「データ辞書」の充実度だ。データ辞書とは,データの意味や表現の参照元となるファイル。データベースに混在するさまざまな表現を統一し,コンピュータで一括処理しやすくするための対応表をイメージしてもらえば良いだろう。

 地方によっては,顧客登録用紙の住所記入欄に,その地域に住む人々しか分からない,だがその地域なら当たり前のように通じる地域名を記入することがある。企業の対応としては,顧客に電話をかけて“正式な住所名”を確認するのが普通だろう。だがそれ以前に,地域名の対応関係がしっかり分かっていれば,対応表――データ辞書を使って,住所記入欄に書き込まれた名称を正式な住所に置き換えたほうが効率的だ。細かい話だが,顧客データが数万規模になると,人手による確認作業は無視できない量になる。

 主要なデータ・クレンジング・ソフト製品の一つに,「トリリアム」がある。ノーリツは顧客データの全社レベルの統合処理に導入。ヤフーはオークション・サイトにおける多重登録の洗い出しに,トリリアムを活用している。トリリアムを販売するアグレックスは創業間もない頃に金融機関向けのデータ入力業務やクレンジング業務を受託。先に触れたような“ローカルな事例”を発見し,データ辞書に登録してきたという。「データ辞書の整備は,地道な作業の積み重ねだ。この作業を怠っては,データ・クレンジングの品質向上は望めない」。アグレックスの早川 真史CRM営業部長はこう説明する。

医療を変えるデータ・クレンジング

 データ・クレンジングは,対象とする業界の専門性や,業界特有の複雑さが加味されると,その難易度が一気に上がる。その代表例と言えるのが医療分野だ。

 医療統計データの提供をメイン事業とする日本医療データセンターは,レセプト(診療報酬明細書)をはじめとした医療データのクレンジングを実施している。同社のクレンジング作業の中核を担うのが,医療用語の対応関係を盛り込んだデータ辞書,「医療系共通辞書」である。医療機関ごと,医療システムごとに表記や単位が異なる医療データをクレンジングし,研究機関や医療組織が調査・分析で活用しやすい形に整理している。

 「最近医療の電子化が叫ばれているが,医療データの標準化はそれほど進んでいない」。日本医療データセンター代表取締役の木村 真也氏はこう語る。

 健診結果のデータ,電子カルテのデータ,薬の処方内容などを記入したオーダー,会計処理を実施する医事コンピュータのデータ。代表的なデータを挙げてみると,どれも標準化が進んでいない。「病名,治療行為の名称,薬とその量を示す単位の表現は医療機関ごと,医療システムごとにバラバラだ」(木村氏)。例えば「2型糖尿病」と表現しているケースがあれば,「糖尿病II型」としているケースもある。こうしたパターンを一つひとつ拾い上げていく必要がある。

 そもそも,システム化さえされておらず,手書きのデータで現場を回していることも多い。データ・エントリ事業者に依頼して,手書きのレセプトをデータ化するというケースもある。だが医療分野では特に,エントリの際にミスが生じやすい。病名や薬の名称は一般的ではないし,紛らわしい固有名詞が多いからだ。医療分野の知識がなければ,入力やベリファイ(確認作業)には限界がある。「なかには男性患者なのに『子宮ガンの疑いあり』となっているデータも散見される」(木村氏)。

 ばらつきを整え,間違いを正し――つまりデータ品質を向上させ,より広範囲に統計分析できるようになれば,大きな効果が見込める。どの地区でどの病気が増えているのか。それは全体の傾向と比べてどんな特徴があるのか。全国の医療データがクレンジングされ,統計分析できるようになれば,医薬品のマーケティング,医療政策,公衆衛生学や疫学は大きく変わるだろう。そうしたビジョンのもと同社では,大学など研究機関との共同研究という形で,医療統計データの社会還元を進めているという。

 医療データのクレンジングを進める上でのポイントは何か。「データ辞書を拡張することに尽きる」と木村氏は言う。医療の現場に出向き,どんな新しい言葉が出てきて,それがどのように使われているかを調べながら,地道に医療系共通辞書を拡張する。手間の削減を狙って,推論パターンを作りデータを変換させようとすると,とたんにパターンがふくれあがって逆に使えないものになるという。「泥臭い作業だが,データ辞書の整備が一番クレンジングに効く」(木村氏)。

 話は戻るが,「データになっていない,データ化されていても標準化されていない,といったことがあいまって,医療データは『活用以前』の状態にとどまっている」(木村氏)のが現状だ。日本医療データセンターの仕組みだけで医療データの品質が高まるわけではない。医療業界を挙げての標準化や,医療機関で正確にデータが入力される仕組みを整えるなど,多方面からのアプローチが欠かせない。私たちはIT関係者として,そして多かれ少なかれ医療に何らかの形で関わる一人としても,医療データの現状にもっと眼を向けるべきだろう。

 情報システムが企業なり医療機関なりの組織活動で重要な位置を占めるのは言うまでもない。しかし,システムがその役割を十分に果たすためには,顧客(患者)や商品を表現するデータの品質を確保する必要がある。

 そのデータが実は,危うい状況に置かれている。データ・クレンジングと,その中核となるデータ辞書の重要性は増すばかりだ。