三つめの事例はリクルートテクノロジーズだ。リクルートテクノロジーズでは、さまざまな分野で機械学習を活用。中でも2015年7月に試験運用を開始した、「ギャザリー」の画像解析システムは、深層学習(Deep Learning)を使った高度な基盤といえるだろう。

 ギャザリーとは、リクルートライフスタイルが運営する、いわゆる「まとめサイト」のSNSである。投稿者が文章や画像を投稿でき、過去には担当者がその内容を目視でチェックしていた。だが、規模の拡大とともに負担は高まるばかり。そこで目を付けたのが、機械学習を活用して画像を自動識別する画像解析システムだった(図4)。

図4●リクルートが採用する画像解析システム
リクルートテクノロジーズが開発した画像解析システムでは、5万 枚のデータを基に投稿画像を三つのクラスに分類。問題がある 画像を自動で排除する
[画像のクリックで拡大表示]

 開発に当たったリクルートテクノロジーズの石川信行氏(ITソリューション統括部 ビッグデータ部 ビッグデータ4グループ 兼アドバンスドテクノロジーラボ シニアアーキテクト)と白井祐典氏(ITソリューション統括部 ビッグデータ部 ビッグデータ3グループ)らは、予測モデルの作成に当たって、約5万枚の画像データを用意した。それを「セーフ」「セクシャル」「グロテスク」の各クラスに分類。それぞれビッグデータ基盤に登録した上で、深層学習のモデルを作成した。

 「画像の準備と登録はとても地道な作業。メンバーで手分けして登録した」と白井氏は振り返る。時には自ら裸になって撮影した画像を登録することもあった。画像データの量は、識別率に直結する。開発の合間を見て、根気よく登録していったという。

次ページ以降はITpro Active会員(無料)の方のみお読みいただけます。