資料の紹介
企業が扱うデータ量は圧倒的なスピードで増え続け、企業内には分析に必要な新しいデータソースも増えている。データウエアハウスやメインフレームはいまも企業のデータ管理基盤の中核にあるが、費用対効果を考えると、増え続けるデータへの対応は難しい。
そこで注目されているのが、Apache HadoopやApache Sparkのような分散処理フレームワークである。これらは、大量かつ多様なデータセットに対する複雑な処理や、データ統合で高い効果を発揮する。しかし開発者が使いこなすには、新たなスキルとノウハウが必要になる。
本資料では、分散環境の特別なスキルを習得しなくても、Hadoop上で費用対効果の高いアプリ開発を可能にする一つの手段として「データ統合ソフト」を紹介、その仕組みを説明する。オンプレミス、クラウドを問わず、バッチ処理やストリーミング処理をはじめとするデータソースにアクセスし、統合できるようになるという。