ビッグデータの「分析処理」で注意が必要なのは、クエリーの処理時間だ。STEP2 データ保存で取り上げたデータストアのクエリー処理面を見ていくことになる。クラウドサービスとオンプレミスに分けて説明しよう。

クラウド編

 リクルートテクノロジーズの山田悦明氏(ITソリューション1部ビッグデータグループ)がビッグデータ分析に利用しているのは、「Amazon Redshift」だ。リクルートホールディングスのグループ企業各社が運営するWebサイトのアクセスログを収集・分析し、Webサイトのデザインやサービスの改善に活用している。実際、分析結果を基にしてあるサイトのデザインを変更したところ、コンバージョンレート(成約率)が以前の1.4倍に上がったという。

 アクセスログは1カ月当たり1億8000万件ペースで増え続ける。分析対象のデータが増えてもリソースを柔軟に拡張して処理性能を高められるクラウドのメリットを重視し、Redshiftを採用した。利用の際にポイントとなったのは「distkey」「sortkey」「データ圧縮」の三つである(図1)。

図1●リクルートテクノロジーズがAmazon Redshiftに施した設定と効果
図1●リクルートテクノロジーズがAmazon Redshiftに施した設定と効果
[画像のクリックで拡大表示]