「精緻なモデルを追求するよりも、そこそこのモデリングで、とにかく大量のデータを使ってパターンを発見し、機械学習させた方が高精度なシミュレーションモデルが出来上がる。このようなデータ活用法が生まれたことが、ビッグデータによる情報活用の新たなパラダイムだ」――。
楽天の執行役員で楽天技術研究所長と開発アーキテクチャ部部長を兼務する森正弥氏から、ビッグデータの本質についてこのような話を聞かせてもらったのは2012年2月のことだった。
正直なところ記者は森氏の話を聞くまで「ビッグデータというのは、つまるところDWH(データウエアハウス)やBI(ビジネスインテリジェンス)の蒸し返しにすぎないのではないか」という疑念をぬぐいきれずにいた。
けれども森氏は、米グーグルが米国政府系機関の翻訳コンテストで機械学習を活用して優勝したエピソードなどを紹介しつつ、IT活用の歴史と今後について分かりやすく説明してくれた。
それによれば、これまでは「人間が精緻な仮説を立て、検証にデータを使うことで計量モデルを作ろうとする時代」だった。今後は「機械がパターンを大量に発見して積み上げていくことで、人間の仮説力を超えた意思決定モデルを自動的に作れる時代」だという。
実際、楽天はデータサイエンティストを登用するに当たり、単なる統計処理のスキルではなく、機械学習のスキルを非常に重視している。楽天のデータサイエンティストは、以下の三つのポイントにフォーカスして活動しているという。
- 機械学習の適用と多種大量のデータの活用による、検索・商品推薦・オンライン広告の精度向上(→売り上げの拡大)
- 機械学習の適用による、バックエンド業務の効率化。例えば、需要予測による在庫の適正化やリソースの最適化(→コスト効率の最適化・コストの削減)
- 機械学習の適用による、適切でない活動の発見。例えば、不正アクセス、不正利用、集団による不正な活動(詐欺行為・やらせ行為)、不適切なコンテンツ・投稿などの発見( → ネット販売の安全性強化とともに社会的責任を果たす)
こうした活動により効率的なサービスや自動化を実現して経営に貢献していくこと、さらには、取り組み事例を他企業・業界・研究者と共有することを通じて「日本のIT活用および経済の活性化にも貢献していきたい」と森氏は考えている(情報論的学習理論と機械学習研究会(IBIS)で森氏が2012年11月に講演したときの資料)。
「統計学がブーム」の段階にとどまらず「機械学習がブーム」という段階にまで、ベンダーと企業ユーザー、そして編集記者の情報リテラシーが高まれば、ビッグデータを取り巻く懐疑の声はかなり収束するのではないか。
機械学習の細かい理論的な部分を報道するのはなかなか難しいが、実際に活用している森氏のような企業ユーザーの声を今後も積極的に取り上げていこうと考えている。
日経コンピュータ