Talendは2014年6月4日、異なるシステム間のデータベースを連携/統合するデータ統合ソフトの新版「Talend 5.5」を発表した。7月に販売/出荷する。新版では、Hadoopをデータ統合処理のエンジンとして使った場合の処理性能を平均45%向上させたほか、新たにApache Sparkをエンジンとして使えるようにした。価格(税別)は、ETL(抽出/変換/登録)機能を提供する中核ソフト「Talend Enterprise Data Integration V5.4」が、年額190万円から。開発会社は米Talend。

 Talendは、データ統合ソフト製品群である(関連記事:Talend、データ統合ソフト新版でMapReduce 2.0/YARNエンジンを使用)。ETLソフトの「Enterprise Data Integration」を中核に、データクレンジング/マスターデータ管理機能やESBミドルウエア(データ通信基盤)などをTalendブランドで提供する。

 Talendでは、Eclipseを用いたビジュアル開発により、ETL処理やデータクレンジング処理を、Javaプログラム(JARファイル)として生成する。Enterprise Data Integrationの機能上位版「Enterprise Big Data」では、通常のJava環境で動作するスタンドアローン処理型のほかに、Apache Hadoop環境で動作する分散処理型のプログラムも生成できる。

 今回の新版では、Hadoop環境で動作する分散処理型プログラム向けに、コードを最適化した。これにより、Hadoop環境下での処理性能が、前版(Talend 5.4)と比べて平均45%向上した。これにより、ETL処理を、より高速化できるようになった。

 新版ではさらに、分散処理エンジンとして、Apache Sparkを使えるようにした(関連記事:Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開)。Apache Sparkを使うと、HDFS(Hadoopのファイルシステム)上にあるデータをメモリーにロードして高速に分散処理できる。これにより、Hadoopが得意なバッチ処理だけでなく、リアルタイムなデータ変換処理も高速に処理できるようになるとしている。