分析基盤の構築は、ユーザーの用途に照準を合わせて

データ基盤／Cloudera

日川佳三＝ライター

2017.08.31

　Cloudera（クラウデラ）によるソリューション講演には、同社の日向寺正之氏が登壇。同社のHadoopディストリビューションである「Cloudera's Distribution including Apache Hadoop」（CDH）を用いて、データ分析者のニーズに合致したデータ分析基盤を提供するためのポイントを解説した。

Cloudera SEチームヘッド日向寺正之氏

撮影：海老名進

　まず同氏は、海外でのCDH導入事例を紹介した。通信事業者の英BT Groupは、1日10億件のレコードのETL処理に24時間以上かかっていた状況を改善、以前の5倍のデータを3分の1の時間で処理できるようにした。米Navistarは、18万台超のトラックの予防保守にCDHを活用。オランダのSchiphol空港は、エスカレーターのセンサーデータを収集して解析し、計画外の停止を減らすことに成功した。

　続いて、BI（ビジネスインテリジェンス）など、ユーザーの用途に合わせてデータ分析環境を構築することの重要性を説いた。

　現在のBI環境が抱える課題は多い。ユーザーから見ると、データが準備できるまで時間がかかるなど、使えるデータの量には実質的に制約がある。インフラ管理者から見ると、「どんなクエリーが実行されるか分からない」「何が原因で処理が重いのか分からない」。データ管理者からは「テーブル名だけを見てもデータの意味が分からない」「データが使われているかどうかが分からない」といった問題がある。

　日向寺氏は、BIソフトの利用環境の一つの正解として、データ分析エンジンにImpala、データの格納にKuduを組み合わせた環境を提示した。

基盤ソフトにも得手不得手、用途に合わせ選択を

　Hadoopによるデータ処理環境を構築する際には、それぞれの技術の得意不得意を把握したうえで、用途に適したものを採用することが大切と日向寺氏は説いた。

　具体的には、データ分析エンジンの場合、バッチ処理にはMapReduceやSparkが向く。BIやSQLベースでのアドホック分析にはImpalaが向く。データ格納ストレージの場合、更新頻度が低く大規模な非構造化データならHDFS、更新頻度が高くランダムI/OならHBase、更新頻度が高く構造化データの分析用途ならKuduが適する。

　「処理が重い原因が分からない」「テーブル名だけを見てもデータの意味が分からない」点については、適切な監視が必要になる。Clouderaでは、こうした課題を解決するために、クラスタ管理ツールのCloudera Managerやメタデータ管理ツールのCloudera Navigatorを用意している。メトリクス監視ができるほか、どのテーブルを消したらどこに影響が出るかといった依存関係を把握できる。

　このほか、データサイエンティストに“自由”を与える仕組みとして、Dockerコンテナを用いたセルフサービス型のデータサイエンス基盤Cloudera Data Science Workbenchを提供。開発者向けには、開発環境のプロビジョニングができるCloudera Directorや、PaaSサービスのCloudera Altusを用意している。

分析基盤の構築は、ユーザーの用途に照準を合わせて

基盤ソフトにも得手不得手、用途に合わせ選択を

#EAI／ETL

ERP刷新だけだと40％の企業が失敗、成功に必要なB2B連携のポイント5選

次世代ERPにしても良さを生かせない！未然に防げる統合戦略ポイント3選

ミッションクリティカルの設計思想が息づいたデータ連携基盤「ACMS Apex」の実力

大規模データ活用でETLに課題が！メガクラウドで使える「ELT」の魅力とは

このコラムのバックナンバー

監視データを共有すれば、遅い原因は突き止められる

オールフラッシュ/HCIは用途にあったアーキテクチャで選べ

「NoVM」は運用レスへの近道、PaaS全面採用で負担激減

P2V2Cで安全なクラウド移行、大量データはディスク経由で

プライベートクラウド運用の悩みをADCで解決

基盤ソフトにも得手不得手、用途に合わせ選択を

この記事に関連する資料

Cloudera【事例】DMM.comがビッグデータ分析基盤の構築に使ったオープンソースソフトとは？

編集部イチ押しの資料（ホワイトペーパー）

なぜ生成AI時代にAPI管理が重要か？ 分断されたデータを自動的にまとめて活用

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

ビジネスプロセスをつなぎ、データをつなぐ 変革を支えるSAP BTPの魅力

バックオフィス系クラウドサービス増加で生じた新たな課題への解決策とは

#EAI／ETL

ERP刷新だけだと40％の企業が失敗、成功に必要なB2B連携のポイント5選

次世代ERPにしても良さを生かせない！ 未然に防げる統合戦略ポイント3選

ミッションクリティカルの設計思想が息づいたデータ連携基盤 「ACMS Apex」の実力

大規模データ活用でETLに課題が！ メガクラウドで使える「ELT」の魅力とは

このコラムのバックナンバー

監視データを共有すれば、遅い原因は突き止められる

オールフラッシュ/HCIは用途にあったアーキテクチャで選べ

「NoVM」は運用レスへの近道、PaaS全面採用で負担激減

P2V2Cで安全なクラウド移行、大量データはディスク経由で

プライベートクラウド運用の悩みをADCで解決

Cloudera
【事例】DMM.comがビッグデータ分析基盤の構築に使ったオープンソースソフトとは？

なぜ生成AI時代にAPI管理が重要か？分断されたデータを自動的にまとめて活用

ビジネスプロセスをつなぎ、データをつなぐ変革を支えるSAP BTPの魅力

次世代ERPにしても良さを生かせない！未然に防げる統合戦略ポイント3選

ミッションクリティカルの設計思想が息づいたデータ連携基盤「ACMS Apex」の実力

大規模データ活用でETLに課題が！メガクラウドで使える「ELT」の魅力とは