AI(人工知能)は今、3回目のブームだそうである。機械学習や深層学習(ディープラーニング)など、以前は存在しなかった技術がブレークスルーを起こしつつある。今回のブームにおける重要な変化は、AIが人間から教わらなくても、収集されたデータから自ら学習するようになったことである。
「AIにデータを食わせる」という言い方がある。AIはデータを餌に成長する。将棋や囲碁ができるAI同士を対戦させることにより、対戦データが得られる。AIは人間が対戦可能なゲーム数を遥かに超えた経験ができ、桁違いの速度で学習できる。
だが、ここで問題がある。データの品質である。矛盾のあるデータばかりAIに食べさせたらどうなるだろう。意図的に誤ったデータを混ぜて供給したらAIはそれを見破れるのだろうか。
「AIを導入した」というニュースには事欠かないが、そうした企業はAIに食べさせるデータを整える「データクレンジング」に結構な人手をかけている。
筆者はデータマネジメントプロフェッショナルの国際団体、DAMA(データマネジメントアソシエーション)の日本支部で会長を務めている。各国のメンバーとやり取りしていると「AI時代のデータガバナンス」が話題になることが多い。そこで改めてデータの品質とそれを担保する仕組みについて考えてみたい。
企業の構成要素は“5W1H”
「データはエンタープライズ(企業や政府機関など目的をもった組織)にとって極めて重要な資産と見なされている」
これはDAMAがまとめた“DAMA-DMBOK Guide(The DAMA Guide to The Data Management Body of Knowledge)”の巻頭に記載された一文である(邦訳は『データマネジメント知識体系ガイド第一版』)。DAMA-DMBOKは今年2017年7月、version 2が米国で発行された。
ITproの読者の方であれば「データが資産」という言い方に違和感は持たないと思うが、ここでエンタープライズアーキテクチャ(EA)の提唱者であるジョン・ザックマン氏が示した「企業の構成要素」を紹介しておく。
企業というものは一体何でできているのだろうか。ザックマン氏の回答はとてもシンプルで、次の5W1Hだとしている。
Why:企業のミッションや目的
Who:人
What:資産
Where:場所やネットワーク
When:時間・スケジュール・タイミング
How:業務プロセス
上記のそれぞれはデータや情報として扱われ、取引が行われ、物事が決定されていく。Whatのところにある設備や資金にとどまらず、そうしたデータや情報もまた資産と言える。
データと情報は本来、異なるものであるが、本稿では記述の便宜上、データと情報を合わせて「データ」と書くことにする。ちなみにDMBOK Guideはデータと情報について次のように定義している。
データ:事実がテキストや数値、グラフィック、イメージ、音、ビデオの形をとったもの
情報:コンテクストの中に置かれたデータ。コンテクストとは、ビジネス上の意味、フォーマット、時間枠、利用法との関連性など