ヤフーではこれまで、さまざまな分野で機械学習を活用してきた。検索エンジンや自然言語処理など、既に幅広い領域で成果を上げている。中でも機械学習を活用した記事連動型広告「YDN(ヤフーディスプレイアドネットワーク)」は、同社における広告売り上げをけん引する重要なサービスの一つに成長した。
YDNは、Yahoo!ニュースやYahoo!知恵袋などの記事に連動して表示される広告である。ユーザーが広告をクリックすると、広告主が1クリック当たりの広告単価を支払う仕組みだ。当然、広告主はクリックされることを期待する。その一方で、ヤフー側はクリック数が増えないと広告収入が増えない。つまり、クリック数の増加は双方にとって大きな意味を持つ要素となるわけだ。
6000台のサーバーを使いモデル生成
そこで導入したのが、機械学習によるクリック確率の判定である(図6)。ヤフーでは、Webサイト全体で月間約650億件のPVがある。このうち主にYahoo!ニュースとYahoo!知恵袋のアクセス履歴を丸ごと、データ分析用のHadoopに格納する。Hadoopが稼働するサーバーは約6000台。ここで、アクセス履歴(クリック履歴を含む)からどのユーザーがどんな広告をクリックしたかを解析し、ユーザー/広告ごとのクリック確率を予測するモデルを生成する。