写真1●Hadoopのオリジナル開発者であるダグ・カッティング氏
写真1●Hadoopのオリジナル開発者であるダグ・カッティング氏
[画像のクリックで拡大表示]

 オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。

 基調講演にはカッティング氏のほか、日本Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス(Databricks)のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。

写真2●日本Hadoopユーザー会の濱野賢一郎氏
写真2●日本Hadoopユーザー会の濱野賢一朗氏
[画像のクリックで拡大表示]

 NTTデータの濱野氏(写真2)は基調講演の冒頭、2009年に第1回が開催されたHadoop Conference Japanが今回で5回目の開催を向かえ、参加登録者は過去最多の1296名になったことを明かした。参加者に対して行ったHadoopの周辺ソフトウエアの使用に関するアンケートでは、「Hive」を使っている参加者が570人、「Zookeeper」が289人、「HBase」が271人、「Fluentd」が194人、「Impala」が141人、「Spark」が108人に上ったことなどを紹介し、「日本におけるHadoop利用の幅が広がっている」との見方を示した。

オリジナル開発者がHadoopの進化を語る

 Hadoopのオリジナル開発者で、現在はHadoopのディストリビューション(検証済みパッケージ)のベンダーである米クラウデラに所属するカッティング氏は、「2008年に(カッティング氏の当時の所属先である)米ヤフーがHadoopをOSSとして公開した時、Hadoopは既に1000台規模のクラスターで稼働できる拡張性を備えていた。しかし当時は、セキュリティ機能はなく、単一障害点(SPOF)があるなど安定性に欠け、処理方式もMapReduceにしか対応していなかった。しかし今では、セキュリティ機能を搭載し、SPOFは無くなった。さらに新しいクラスター管理ソフトウエアである『YARN』によって、インメモリー処理やストリーム処理、グラフ処理など様々な処理方式をHadoopで利用できるようになった」とHadoopの進化を語った。

 カッティング氏は「ビッグデータ処理の分野では、Hadoop以外の競合は生き残っていない。今では米IBMや米マイクロソフトといった既存ベンダーも、Hadoopのエコシステムに集まっている」と語る。様々なベンダーが開発する豊富な機能が集まる今のHadoopを、カッティング氏は「ビッグデータを処理する分散OSのカーネル」と表現した。

 カッティング氏は、「将来的にはHadoopで、トランザクション処理もできるようになるだろう」と見通しを語った。Hadoopが手本とする米グーグルの「MapReduce」と「Google File System」は、後継システムである「Spanner」によって、トランザクション処理に対応済みだ。現時点でSpannerのOSS版は存在しないが、カッティング氏は「SpannerのようなOSSを開発することは技術的には可能であり、誰かが作ることになるだろう」と語り、Hadoopがトランザクション処理をも包括する「エンタープライズ・データ・ハブへと進化する」と主張している。