写真●KuduのWebサイト
写真●KuduのWebサイト
[画像のクリックで拡大表示]

 米Clouderaは2015年9月28日(米国時間)、オープンソースソフトウエア(OSS)の分散処理ソフト「Hadoop」用の新しいストレージである「Kudu」をOSSとして公開した。データの分析処理とオンライン処理の両方の高速化を図ったことが特徴。

 Kuduは、データウエアハウス(DWH)のストレージとして一般的な「カラム(列)ストア」だ。カラムストアはデータをロー(行)単位ではなくカラム(列)単位で扱うため、データの分析処理において頻繁に発生する「特定のカラム(列)に対するデータの読み出し」を高速化できる。

 これまでも「Parquet」というソフトウエアを使用すると、Hadoopの標準ストレージである「HDFS」をカラムストアとして使用できた。しかしHDFSは、データのオンライン処理に向いていないという弱点があった。

 HadoopにはHDFS以外にもう一つ、データのオンライン処理が高速な「HBase」というストレージがある。しかしHBaseはデータを行単位で保存する仕組みであるため、データの分析処理はHDFSよりも低速だった。

データのオンライン処理が高速なカラムストア

 Clouderaが今回公開したKuduは、データの分析処理が高速なカラムストアでありながら、データのオンライン処理が高速であるという特徴を持つ。Kuduを使用するメリットは、毎日のように大量のデータが発生するIoT(Internet of Things)のようなシナリオにおける「データの発生から分析までのタイムラグ」を短縮できることにある。

 これまで、IoTのようなシナリオでHadoopを使うユーザーは、新しく発生したデータをHBaseにまず保存し、1日単位でHDFSにコピーするなどしてから、データを分析していた。つまりデータが発生してから分析可能になるまでに、タイムラグが生じていた。それがKuduであれば、新しく発生したデータをKuduに直接保存し、新しく発生したデータに対してすぐに分析ができる。データの発生から分析までのタイムラグが、従来に比べて短くなる。

 Kuduは、地理的に離れたデータセンターにまたがってデータを複製保存する機能も備える。複数のデータセンターでKuduを運用することによって、データセンター全体に障害が発生した場合でも、データの更新処理や分析処理を継続できるようになる。