機械学習技術を活用したビッグデータ解析には、いわゆる教科書的なやり方があるわけではない。各データサイエンティストが、自らの経験を基に合理的と思える解析方法を編み出し、ブラッシュアップして用いているのが実態だ。ビギナーにとって、解析方法を習得する早道は、近くにいるエキスパートからやり方を教わることだろう。しかし、そうした人が近くにいない場合は、本書が参考になるはずだ。

 1章ではビッグデータ解析におけるSparkの役割について、また2章ではデータクレンジングの例を通じてSparkとScalaによるデータ処理方法について説明する。以降の章では、例えば音楽のレコメンドシステム、要因分析のためのデシジョンツリーによる森林被覆予測、ゲノムデータの解析といった具合に、Sparkを用いた個々の機械学習事例として実践的な分析手法を解説する。

 データ解析言語にはScalaを使用する。本書(日本語)には、原書にない付録としてSparkRの使用方法などを掲載している。


Sparkによる実践データ解析
大規模データのための機械学習事例集

Sandy Ryza 、Uri Laserson、ほか 著
石川有 監訳、玉川竜司 訳
オライリー・ジャパン
3672円(税込)