Credit: Yahoo!
Credit: Yahoo!
[画像のクリックで拡大表示]

 米Yahoo!は現地時間2016年1月14日、教育機関の機械学習研究者向けに大規模なデータセットを公開すると発表した。大企業だからこそ蓄積できる真に大規模なデータセットを提供することで、機械学習およびレコメンダーシステム分野の発展を目指すとしている。

 Yahoo!が公開する「Yahoo News Feed」データセットは、Yahoo!ホームページをはじめ、「ニュース」「スポーツ」「ファイナンス」「映画」「不動産」といったYahoo!サービスのニュースフィードにおけるユーザーの反応について情報を収集したもの。

 2015年2月~5月にユーザー2000万人がニュース記事に対して実行したクリックなどのアクションを、個人が特定できないかたちで記録した。1100億件の記録から成るデータサイズは非圧縮状態で13.5Tバイトにのぼる。

 またデータセットには、年齢層、性別、地域といったユーザーの統計情報のほか、ニュースの見出し、概要、キーフレーズ、さらにユーザーがアクセスした時刻や使用した端末といった情報が含まれる。

 Yahoo News Feedは、Yahoo!の研究部門が進めている非商用目的のデータ共有プログラム「Webscope」を通じて提供する。

[発表資料へ]