AI(人工知能)は今、3回目のブームだそうである。機械学習や深層学習(ディープラーニング)など、以前は存在しなかった技術がブレークスルーを起こしつつある。今回のブームにおける重要な変化は、AIが人間から教わらなくても、収集されたデータから自ら学習するようになったことである。

 「AIにデータを食わせる」という言い方がある。AIはデータを餌に成長する。将棋や囲碁ができるAI同士を対戦させることにより、対戦データが得られる。AIは人間が対戦可能なゲーム数を遥かに超えた経験ができ、桁違いの速度で学習できる。

 だが、ここで問題がある。データの品質である。矛盾のあるデータばかりAIに食べさせたらどうなるだろう。意図的に誤ったデータを混ぜて供給したらAIはそれを見破れるのだろうか。

 「AIを導入した」というニュースには事欠かないが、そうした企業はAIに食べさせるデータを整える「データクレンジング」に結構な人手をかけている。

 筆者はデータマネジメントプロフェッショナルの国際団体、DAMA(データマネジメントアソシエーション)の日本支部で会長を務めている。各国のメンバーとやり取りしていると「AI時代のデータガバナンス」が話題になることが多い。そこで改めてデータの品質とそれを担保する仕組みについて考えてみたい。

企業の構成要素は“5W1H”

 「データはエンタープライズ(企業や政府機関など目的をもった組織)にとって極めて重要な資産と見なされている」

 これはDAMAがまとめた“DAMA-DMBOK Guide(The DAMA Guide to The Data Management Body of Knowledge)”の巻頭に記載された一文である(邦訳は『データマネジメント知識体系ガイド第一版』)。DAMA-DMBOKは今年2017年7月、version 2が米国で発行された。

 ITproの読者の方であれば「データが資産」という言い方に違和感は持たないと思うが、ここでエンタープライズアーキテクチャ(EA)の提唱者であるジョン・ザックマン氏が示した「企業の構成要素」を紹介しておく。

 企業というものは一体何でできているのだろうか。ザックマン氏の回答はとてもシンプルで、次の5W1Hだとしている。

Why:企業のミッションや目的

Who:人

What:資産

Where:場所やネットワーク

When:時間・スケジュール・タイミング

How:業務プロセス

 上記のそれぞれはデータや情報として扱われ、取引が行われ、物事が決定されていく。Whatのところにある設備や資金にとどまらず、そうしたデータや情報もまた資産と言える。

 データと情報は本来、異なるものであるが、本稿では記述の便宜上、データと情報を合わせて「データ」と書くことにする。ちなみにDMBOK Guideはデータと情報について次のように定義している。

データ:事実がテキストや数値、グラフィック、イメージ、音、ビデオの形をとったもの

情報:コンテクストの中に置かれたデータ。コンテクストとは、ビジネス上の意味、フォーマット、時間枠、利用法との関連性など