写真●NTTデータ数理システム データマイニング部 研究員の岩永二郎氏(撮影:井上 裕康)
写真●NTTデータ数理システム データマイニング部 研究員の岩永二郎氏(撮影:井上 裕康)
[画像のクリックで拡大表示]

 「的確なデータ分析をしたければ、下準備となる作業がとても重要だ。複雑な問題や技術を使う場合ほど、これを重視すべき」。NTTデータ数理システム データマイニング部 研究員の岩永二郎氏はこう語る(写真)。

 岩永氏は2014年3月4日、データ分析分野の総合セミナーである「データサイエンティスト・ジャパン 2014」に登壇。データサイエンティストとしての仕事の実際を紹介した。

 岩永氏らNTTデータ数理システムのグループは、日本オペレーションズ・リサーチ学会などが開催する平成24年度データ解析コンペティション課題設定部門で最優秀賞を受賞した。冒頭の発言は、そのデータ解析コンペで賞を獲得した経験を含めてのものである。

 コンペは半年間をかけて特定のテーマについて分析し、その解析精度を競う。この回の題材は、リクルートが運営する不動産情報のポータルサイト「SUUMO(スーモ)」における10週間のアクセスログを分析し、その後1週間の間にユーザーが閲覧および資料請求するであろう物件を予測し提示する、という内容だった。

 岩永氏によれば、分析のプロセスは大きくデータクレンジング、分析の見通しをつけるための基礎分析・可視化、データ加工、データの特性を識別するための特徴量の分析、実際の予測・提示の仕組みとなるレコメンドロジック構築、実験と検証、といった具合に分かれる。

 今回の分析で一番決め手となったのは、初期に実施する基礎分析・可視化。「スタート時点での足固めがとにかく大事。ここをしっかり実施すれば、問題をどう解いていけばよさそうかという分析の方向性が見えてくる」(岩永氏)。

 可視化については、「そう複雑なグラフなどを作る必要はない」(岩永氏)。テキストベースでユーザーの行動の傾向をつかむ表を作成し、それを検討のために参照したという。岩永氏は「とにかく人間が理解しやすい形に落とし込むことがポイントだ」と付け加える。

 構築したレコメンドロジックの詳細については、日本オペレーションズ・リサーチ学会の機関誌「オペレーションズ・リサーチ」2014年2月号に論文が掲載されているという。

人間の限界を超え、ビジネスの助けに

 岩永氏は実際の分析例としてもう一つ、時事通信社をクライアントとするデータ解析サービスおよびシステム開発事例を紹介した。これは日本プロ野球のクライマックスシリーズ(CS)におけるCS進出ナンバーを算出するというものである。

 数理計画法とコンピュータを使うことで、各球団がCSに進出するために必要とする勝利の回数を、素早くかつ正確に計算することができるようになった。勝利回数を算出するための組み合わせが爆発的に増えるため、手作業では不可能だという。計算を担うソフトウエアには数理システムの製品を適用し、ユーザーインタフェースにはExcelベースのものを使っている。

 「数学の理論と、最近飛躍的に高まったコンピューティングパワーを組み合わせれば、人間の知性の限界を超える探索ができる。これが、ビジネスの大きな助けとなる」(岩永氏)。