データサイエンティストは、企業が持つデータを用いて、ビジネス課題の解決や新たなサービスを実現するエンジニアだ。ビジネス要件を基に、データの状況を見て、必要なデータ分析処理を適用する。場合によっては実装まで面倒を見る。

 現場で活躍する二人のデータサイエンティストを紹介しよう。

 「競合のレコメンデーションを超えるサービスを短期間で作り上げたい」。グラフの原田博植氏は、日本のモバイル系動画サービスのベンチャー企業の経営層から、こんな依頼を受けた。

 原田氏はまず、現状のデータ管理状況から把握。競合は3000項目からなるDBを整備し、それを活用してレコメンデーションを実施している。このベンチャー企業ではそうしたDBがなく、原田氏はレコメンデーションのアルゴリズムを選択し、機械学習によってレコメンデーションルールを作ることにした。

 通常は「こんな人にはこれを推薦」「こんなものを買う人にはこれを推薦」のようにルールを定める。機械学習を使い、このルールを自動的に作っていく仕組みにしたのだ。各方式にはメリットとデメリットがあり、状況からこれがベストと判断した。原田氏は、Pythonと機械学習ライブラリを使い、ロジックを実装。動画サービスのサーバーに搭載するまで1カ月で完遂した。

 原田氏は、RFP(提案依頼書)を受けて要件を固めるところからスタートする。システムの大まかな基本設計を描き、DBを調べて基本設計が実現しそうか検証する。個人情報の扱いも、慎重な対処が必要だ。

 その後、基本設計を実施し、本当に業務側でそれを価値として認め、実践されるかまで検証する。「プロセスがつながっていく先まで見なければならない」(原田氏)。

 必要なスキルとして原田氏は、統計、DB、PythonやSQLなどの言語、ライブラリの活用、AI活用のスキル、OSの知識などを挙げる。ただ「どうやればいいか知っているのと、実際にやったことがあるのとでは違う」(同氏)。

[画像のクリックで拡大表示]

 こうした役割は脚光を浴びる部分。しかし、多くの会社はそれ以前のデータ整備の段階で問題をはらむ。「実際はぼろぼろのデータが多い。それをビジネス的に意味があるように整理することを長期的に勘案するのも、重要な仕事」(同氏)という。