「AI詐欺」が横行する日本のIT業界。AIブームのウソとホントに斬り込む連載の第3回では、主にコスト面から「機械学習」や「ディープラーニング」のビジネス導入の非現実さをあぶり出す。AIのシステム構築コストだけに意識が向いてしまい、従来の業務システムと同様の感覚で運用コストを見積もっていると、後に重大事態を招くと警鐘を鳴らす。

 現在の人工知能(AI)の代表格は機械学習とディープラーニング。どちらも今後、世界を変える大きな可能性を秘めていることは言うまでもない。だが、世界を変えるにはまだまだ遠い。例えば(筆者はいまだ聞いたことはないが)、統計アプローチではない新たな手法の発見など、機械学習やディープラーニングの根幹技術の飛躍的な発展でもない限り、ビジネスでの活用を通じて世界を変えるには、多くの課題を抱えている。

 機械学習やディープラーニングのビジネス上の課題は、大きくコスト視点と効果視点に分けられるが、今回はコスト視点の主要課題について述べたい。

「学習」の質・量を満たすデータに多額のコスト

 機械学習もディープラーニングも、AIという言葉で表される通り「自動で何かをしてくれる機能」ではあるが、原理的には、大量のデータから結果に対して相関の高いパターンや、評価の基準である特徴量を見つけるだけであり(第2回参照)、データの量(レコード数)とデータの質(どれだけの属性項目がどれくらい適切に設定されているか)が品質の全てを決める。

 EC(電子商取引)サイトでの商品レコメンドなどのアクションを見て、これがAIだと思う人もいるが、こうしたアクション自体は昔からある技術に過ぎない。そのアクションを決定する判断こそがAIと呼ばれる機能であり、その精度はデータの量と質で決まる。

 データの量と質というと、小難しい印象を受けるが、人間で例えると「経験」に相当するものだ。例えば自動車を毎日運転している人と、月に1回しか運転していない人、毎日運転していても家から近くのコンビニまでの一本道しか運転していない人と、高速道路や一方通行など様々な条件の道路を運転している人では、運転技術に大きな差が生まれる。データの質と量の差は、それと同様だと思えばよい(図1)。

図1●AIの制度の決め手はデータの「量」と「質」
図1●AIの制度の決め手はデータの「量」と「質」
[画像のクリックで拡大表示]

 実は、そのデータの量と質は、統計学に縁の無い人の想像を超える水準が求められる。技術や実現性を検証する段階でも、高い水準が要求される。AIを取り入れた新サービスや業務改革の検討を進めている企業では、たとえデータ量が多くても、属性項目が少ないうえに空欄や形式不備があり機械学習に使える属性項目に乏しいか、あるいは使える属性項目はあるがデータ量が足りないかなど、既存のデータ自体の問題に起因して検証が進まない。検証しても精度が低くて、導入のメドが立たないという状況を引き起こしている。