米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、IoT(モノのインターネット)のニーズが高まる製造業で特に注目を集める。


 航空機エンジンや発電設備、MRI(磁気共鳴画像装置)などからネットワーク経由で稼働データを収集し、運用や保守に生かす「インダストリアル・インターネット」を提唱するGE。同社は2014年8月、自らが出資する米Pivotalと共同で、インダストリアル・インターネットに適したデータ処理の新しいアーキテクチャー「データレイク」を打ち出しました。既にGEは、テラバイト(TB)規模に達する航空機の飛行データの管理や分析にデータレイクを採用しています。

特徴:非構造データをOSSで管理

 データレイクはセンサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった非構造化データを管理するのに適したアーキテクチャーです。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト(OSS)の分散処理基盤である「Hadoop(ハドゥープ)」に蓄積します。

 非定型分析はデータサイエンティストなどの専門家がHadoop上で実行する一方で、定型分析については一般の利用者が使いやすいデータウエアハウス(DWH)を別途用意します。使用頻度の高いデータはDWHのメモリー上に展開し、データの「アクセシビリティー(使いやすさ)」を確保しているのです。

 従来のDWHは分析の目的をはっきりさせたうえで、収集するデータを必要なものだけに絞り込んでいました。あらゆるデータをアクセシビリティーが確保された状態で保存しようとすると、コストがかかり過ぎるためです。

 ですが、後から「こんな分析がしたい」と多様なニーズが出てきても、データがない場合がありました。データレイクはあらゆるデータを最初から収集しておくため、専門家らの分析ニーズに対応できます。

 Pivotalジャパンの仲田聰技術統括部テクニカルディレクターは「データレイクには様々なデータがそろっている。何か分析しようと思い立ったとき、すぐに実行できることが特徴だ」と話します。