IT基盤から見たBA実践のポイント

 続いて、ビッグデータ時代のBAを実践する際のポイントをIT基盤の側面から述べていく。最新のIT基盤を活用すれば、従来は困難だった情報分析が容易になる。

ポイント1●バッチは並列分散処理する

 蓄積した大量データに対する分析処理では、依然としてバッチが効率的である。古い技術だと思われているが、これからも蓄積した全データを処理する場面では必須となる。例えば、Webログや売上データの分析などが挙げられる。

 バッチの大きな欠点は、蓄積した全データを読み出して処理するため、データ量が増えれば増えるほど、時間がかかる点である。

 前述したHadoopはバッチを並列分散処理によって高速化する代表的なソフトウエアである。ビッグデータのバッチ処理時間は、まずHadoopによって短縮しよう。

ポイント2●生データを蓄積する

 分析に先立っては、生データの蓄積を意識したい。分析対象データの量が不足すると、必要な精度の結果が得られない場合がある。生データの蓄積は一般に、分析処理内容の検討より時間がかかる。例えば、Webログ分析では、分析処理内容の詳細を詰める前に、Webシステムが出力する生ログの蓄積を始める必要がある。

 この点はDWH時代とHadoop時代の大きな違いである。DWHではあらかじめ定めた活用計画に従ってデータを加工して蓄積するため、分析処理内容を事前に詰めておく必要がある。それに対して、Hadoopでは生データをそのまま加工できるため、生データのまま格納することが一般的で、活用計画もあとで作成できる。

 また、最近の情報系システムでは、アドホック分析のサポートが当たり前になってきた。それを考えると、分析の都度、データ基盤から必要なデータを取り込む仕組みでは、タイムリーな分析は行えない。分析対象になりそうなデータをすべてHadoopクラスターなどに蓄積して、任意のタイミングで分析できる状態にすることが重要である。

 ただし、あらかじめ活用計画が明確になっており、必要なデータを限定できる場合は、生データの保存が最適解ではない。活用計画に沿った形に加工して蓄積することが、性能面からは重要である。