前回で話題に挙げた、2012年6月6日に日本武道館で行われた「第4回AKB48選抜総選挙」。アイドルグループのレギュラー枠などをファン投票から選ぶイベントである。今回は、予測技術に対しての一般の期待と実情とのギャップを、回帰モデル型の予測例としてこの選挙予測を取り上げつつ説明していこう。

 ファンのみならず、社会現象としても注目されたこのイベントで、デジタルマーケティングコンサルティング会社のルグランがネットのデータを駆使してレギュラーメンバー上位16人中、15人を的中させ注目を集めた(なお、このプロジェクトでは筆者が所属しているホットリンクもソーシャルデータを提供しており、本記事の執筆に当たり、ルグランの泉浩人代表取締役にもお話を伺っている)。

<関連記事>
ビッグデータ予測が16人中15人的中――AKB48選抜総選挙

 この内容を見てみよう。

予測対象
・AKB48の各メンバーの得票数

予測モデル構築用のデータ
~過去3年間の総選挙前約70日間の下記データ(カッコ内はデータ提供会社)~

・ブログやTwitter、掲示板などにメンバーの名前が書き込まれた件数やその評判(ホットリンク)
・メンバーのテレビ番組・CM出現時間(エム・データ)
・AKB48公式サイトやGoogle+の各メンバーページへのアクセス数(ビデオリサーチ・インタラクティブ)

入力情報
・今回の投票日前の上記データ

予測モデル

・得票数≒ブログ口コミ件数×2.75+CM登場分数×4.47
これに出場辞退した前田敦子の獲得票数を公式サイトのアクセス記録を基に各メンバーに分配

 予測モデルのタイプは過去のデータから各メンバーの獲得票数を予測する「回帰モデル型」である。