Cloudera(クラウデラ)によるソリューション講演には、同社の日向寺正之氏が登壇。同社のHadoopディストリビューションである「Cloudera's Distribution including Apache Hadoop」(CDH)を用いて、データ分析者のニーズに合致したデータ分析基盤を提供するためのポイントを解説した。

Cloudera SEチーム ヘッド 日向寺正之 氏
Cloudera SEチーム ヘッド 日向寺正之 氏
撮影:海老名 進

 まず同氏は、海外でのCDH導入事例を紹介した。通信事業者の英BT Groupは、1日10億件のレコードのETL処理に24時間以上かかっていた状況を改善、以前の5倍のデータを3分の1の時間で処理できるようにした。米Navistarは、18万台超のトラックの予防保守にCDHを活用。オランダのSchiphol空港は、エスカレーターのセンサーデータを収集して解析し、計画外の停止を減らすことに成功した。

 続いて、BI(ビジネスインテリジェンス)など、ユーザーの用途に合わせてデータ分析環境を構築することの重要性を説いた。

 現在のBI環境が抱える課題は多い。ユーザーから見ると、データが準備できるまで時間がかかるなど、使えるデータの量には実質的に制約がある。インフラ管理者から見ると、「どんなクエリーが実行されるか分からない」「何が原因で処理が重いのか分からない」。データ管理者からは「テーブル名だけを見てもデータの意味が分からない」「データが使われているかどうかが分からない」といった問題がある。

 日向寺氏は、BIソフトの利用環境の一つの正解として、データ分析エンジンにImpala、データの格納にKuduを組み合わせた環境を提示した。

基盤ソフトにも得手不得手、用途に合わせ選択を

 Hadoopによるデータ処理環境を構築する際には、それぞれの技術の得意不得意を把握したうえで、用途に適したものを採用することが大切と日向寺氏は説いた。

 具体的には、データ分析エンジンの場合、バッチ処理にはMapReduceやSparkが向く。BIやSQLベースでのアドホック分析にはImpalaが向く。データ格納ストレージの場合、更新頻度が低く大規模な非構造化データならHDFS、更新頻度が高くランダムI/OならHBase、更新頻度が高く構造化データの分析用途ならKuduが適する。

 「処理が重い原因が分からない」「テーブル名だけを見てもデータの意味が分からない」点については、適切な監視が必要になる。Clouderaでは、こうした課題を解決するために、クラスタ管理ツールのCloudera Managerやメタデータ管理ツールのCloudera Navigatorを用意している。メトリクス監視ができるほか、どのテーブルを消したらどこに影響が出るかといった依存関係を把握できる。

 このほか、データサイエンティストに“自由”を与える仕組みとして、Dockerコンテナを用いたセルフサービス型のデータサイエンス基盤Cloudera Data Science Workbenchを提供。開発者向けには、開発環境のプロビジョニングができるCloudera Directorや、PaaSサービスのCloudera Altusを用意している。

この記事に関連する資料