ビッグデータ分析に取り組む多くの現場で使われているのが、「Fluentd」「Hadoop」「Amazon Redshift」「Google BigQuery」「Treasure Data」である。これら主要プロダクト/サービスを図解しよう。

Fluentd

 いろいろな種類のログの収集と出力を一元管理するためのオープンソースソフト。収集したログをJSON形式のファイルに出力する。ログを収集する機能(input)と、 収集したログを出力する機能(output)は、プラグインを組み込むことで拡張できる仕組みになっている。いろいろな種類のログを収集できるのも、プラグインを組み込 むことで、収集可能なログの種類を追加できるためである。

[画像のクリックで拡大表示]

Hadoop

 大量のデータを分割して複数のコンピュータで並列に処理するためのオープンソースフレームワーク。ファイルシステム「HDFS(Hadoop Distributed File System)」と、分散処理アルゴリズム「MapReduce」が使われている。HDFSは、多数のスレーブノードのストレージを統合し、一つの仮想的なストレージとして利用で きるようにするファイルシステムである。MapReduceの処理は、同じ集計処理を多数のスレーブノードで実行する仕組みになっていて、巨大なログファイルでも短時 間に処理することが可能になる。MapReduceの処理内容は、データを抽出する「Map処理」と、抽出したデータを集約する「Reduce処理」の2段階に分かれている。

[画像のクリックで拡大表示]

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。