MapR、HadoopデータをSQLでアドホック検索する「Drill」を提供

日川佳三

ライター

2015.06.11

写真1●米マップアール・テクノロジーズ、最高経営責任者兼共同創業者のジョン・シュローダー氏

[画像のクリックで拡大表示]

図1●Drillは構造化データから非構造化データまでを広くカバーする

[画像のクリックで拡大表示]

　企業向けHadoop互換ソフト開発のマップアール・テクノロジーズは2015年6月11日、HadoopのファイルシステムにSQLでアクセスできるデータベースソフト「Apache Drill 1.0」（アパッチドリル）の提供を開始した。構造化されていないビッグデータに対して、スキーマを定義することなく、オペレーショナルBIソフトなどからアドホックに探索できる。ソフトウエア自体は、先行してOSSとして公開されているApache Drill 1.0と同じであり、サポートサービスを有償で提供する。参考価格は1ノード当たり年額1750米ドル。

　「Hadoopはバッチ処理だけでなくリアルタイム探索へと適用領域を広げている」と説明するのは、米マップアール・テクノロジーズの最高経営責任者兼共同創業者であるジョン・シュローダー氏（写真1、関連記事：企業向けHadoopの上位版はApache HBaseの諸問題を解決した）。Hadoopは元々バッチ処理のために開発されたが、現在ではセルフサービス型のBIツールなどからSQLのインタフェースを介してデータを探索できるようになっているという。

　Drillは、Hadoop環境で使えるSQLデータベースエンジンである。特徴は大きく二つ。一つは、バッチ処理向けのMapReduceを使わず、Hadoopのファイルシステム（HDFS、MapR FS）上にあるデータに直接アクセスできること（Apache HBaseなどのNoSQLにもアクセスできる）。もう一つの特徴は、構造化データから非構造化データまで、どのような構造のデータでも検索できること（図1）。例えば、JSON形式やCSV形式のデータにもアクセスできる。これらに対して、スキーマを定義することなく検索できる。

Hive（バッチ処理）からDrill（アドホック検索）に変化

　マップアール・テクノロジーズでアライアンス＆プロダクトマーケティングディレクターを務める三原茂氏は、HadoopとDrillを組み合わせれば「ビジネスが俊敏になる」と力説する。「Hadoopを使えば、非構造化データを含む多種多様なデータを大量に蓄積して扱える。ここでDrillを使うと、多種多用で大容量のデータを、標準のANSI SQLで探索できる。データを入れてから結果が出るまでの時間を短くできる」（三原氏）。MapRのファイルシステムはNFSのインタフェースも持っているので、NFSを介して非構造化データファイルを書き込むだけで、SQLで検索できるようになる。

図2●オペレーショナルBIツールからDrillを介してHadoopのデータを直接検索できる

[画像のクリックで拡大表示]

図3●Hiveによるバッチ処理からDrillを使ったアドホック検索に変わる

[画像のクリックで拡大表示]

　三原氏は、Hadoopの歴史を振り返り、Drillの優位性を説明した（図2）。「初期のHadoopでは、Java言語でMapReduce処理を書いてバッチ処理アプリケーションを開発していた。その後にHiveの時代になったが、MapReduceをSQLを介して利用できるようにするソフトなので、バッチ処理にしか使えなかった。こうした経緯で、MapReduceを使わずに自前で検索できるImpalaなどが出てきた。ただし、これらのソフトは、標準のANSI SQLを使えるわけではなかった」（三原氏）という。「これまではHiveでバッチ処理の時代だった。これからはDrillでアドホック検索の時代だ」と三原氏は自信を見せる（図3）。