写真1●米トレジャーデータのホームページ
写真1●米トレジャーデータのホームページ
[画像のクリックで拡大表示]
写真2●トレジャーデータのメンバー。CEOは米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏はプリファードインフラストラクチャーの前CTO。楽天で分散キー・バリュー・ストアのROMAを開発した西澤無我氏、OSSのログ収集ツールFluentdやメッセージングミドルウエアMessagePackを開発した古橋貞之氏、MongoDB JPの設立メンバー井上敬浩氏などが参加している
写真2●トレジャーデータのメンバー。CEOは米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏はプリファードインフラストラクチャーの前CTO。楽天で分散キー・バリュー・ストアのROMAを開発した西澤無我氏、OSSのログ収集ツールFluentdやメッセージングミドルウエアMessagePackを開発した古橋貞之氏、MongoDB JPの設立メンバー井上敬浩氏などが参加している
[画像のクリックで拡大表示]

 米トレジャーデータは2012年9月27日(米国時間)、データウエアハウス(DWH)のクラウドサービスである「Treasure Data Cloud Data Warehouse(DWH) Service」を開始したと発表した。「Hadoop」をベースにしたDWHだが、Hadoop独自の「MapReduce」ではなく、SQLのクエリーや「JDBC」「ODBC」などを使って蓄積したデータを活用できることが特徴。米国カリフォルニア州マウンテンビューにあるトレジャーデータは、日本人の若手エンジニアなどが2011年に起業した。

収集、保存、処理の部分を強化

 Treasure Data Cloud DWHは、オープンソースソフトウエア(OSS)のHadoopをDWHとして使うために、「データ分析に必要な『収集(Collect)』『保存(Store)』『処理(Query)』という三つの要素に関して、独自の機能強化を行った」(同社最高技術責任者の太田一樹氏)。

 データの収集に関しては、リレーショナルデータベース(RDB)を含む様々なデータソースから、クラウド上にあるTreasure Data Cloud DWHにデータを吸い上げる「td-agent」というツールを用意した。td-agentは、データをテキスト形式ではなく、解析に向いた「JSON形式」で収集するという特徴がある。td-agentは、同社が開発したOSSのログ収集ツール「Fluentd」を使用している。

 データの保存に関しては、標準的なHadoopに比べて可用性や処理性能を高めた。Treasure Data Cloud DWHはサービスの基盤に「Amazon Web Services(AWS)」を使用する。AWSのストレージサービス「Amazon S3」の上に、トレジャーデータ独自のカラム型データベース(DB)を構築。Hadoopのデータの保存先として「HDFS」ではなくカラム型DBを使用する。そして、カラム型DBの中のデータに対して、MapReduceのジョブを実行するという仕組みになっている。

 Treasure Data Cloud DWHのカラム型DBはAmazon S3を使用しているため、HDFSよりも可用性が高い。HDFSではクラスターを管理する「Name Node」が単一障害点となっていた。またTreasure Data Cloud DWHでは、MapReduceのジョブをカラム型DBの特定のカラム(列)に対してのみ実行することが可能で、通常のHadoopよりも処理を高速化できる。通常のHadoopでは、MapReduceのジョブは、処理の度にテキストデータ全体を検索して、処理に必要なデータを抜き出している。

 データの処理に関しては、SQLのクエリーやJDBC/ODBCを使って、蓄積したデータを活用できるようにした。ユーザーが書いたSQLのクエリーなどは、トレジャーデータが開発したミドルウエアでMapReduceのジョブに変換されて処理される。またJDBC/ODBCが使えるため、既存のBI(ビジネスインテリジェンス)ツールのバックエンドとしても使用できる。具体的には、「JasperSoft iReport」「Pentaho Business Analytics」「Talend Open Studio」「Metric Insights」「Indicee Cloud BI Platform」などがBIツールとして利用可能。このほか、データの解析に使用する「R」言語にも対応している。

 Treasure Data Cloud DWHは、クラウドのサービスであり、ユーザーは従量課金制でサービスを利用できる。現時点では料金体系を発表していないが、データ容量500Gバイトまでは無料で利用できる。

 すでに、Facebookアプリを提供する米ContextLogicや、日本のクックパッドなどがトレジャーデータのサービスを利用しているという(トレジャーデータのユーザー事例ページ)。

日本の若手OSS開発者が起業

 トレジャーデータは、日本の若手エンジニアが中心となって起業した。CEO(最高経営責任者)は米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏は、国産検索エンジンベンダーのプリファードインフラストラクチャーの前CTOで、日本のHadoopコミュニティの中心的なメンバーだった。

 トレジャーデータには他にも、楽天で分散キー・バリュー・ストアのOSS「ROMA」を開発した西澤無我氏や、OSSのログ収集ツールFluentdのほかOSSのメッセージングミドルウエア「MessagePack」を開発した古橋貞之氏、ドキュメント指向DBのOSS「MongoDB」の日本でのユーザーコミュニティ「MongoDB JP」の設立メンバーだった井上敬浩氏などが参加している。

■変更履歴
最後から2段落目でおよび写真2のテキストで「レッドハット日本法人」としていましたが、正しくは「米レッドハット」です。お詫びして訂正します。本文および写真2のテキストは修正済みです。 [2012/9/28 17:50]