データレイク

日経情報ストラテジー

2015.07.17

　米ゼネラル・エレクトリック（GE）などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、IoT（モノのインターネット）のニーズが高まる製造業で特に注目を集める。

　航空機エンジンや発電設備、MRI（磁気共鳴画像装置）などからネットワーク経由で稼働データを収集し、運用や保守に生かす「インダストリアル・インターネット」を提唱するGE。同社は2014年8月、自らが出資する米Pivotalと共同で、インダストリアル・インターネットに適したデータ処理の新しいアーキテクチャー「データレイク」を打ち出しました。既にGEは、テラバイト（TB）規模に達する航空機の飛行データの管理や分析にデータレイクを採用しています。

特徴：非構造データをOSSで管理

　データレイクはセンサーのログやGPS（全地球測位システム）、ソーシャルメディア、画像・映像、音声といった非構造化データを管理するのに適したアーキテクチャーです。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト（OSS）の分散処理基盤である「Hadoop（ハドゥープ）」に蓄積します。

　非定型分析はデータサイエンティストなどの専門家がHadoop上で実行する一方で、定型分析については一般の利用者が使いやすいデータウエアハウス（DWH）を別途用意します。使用頻度の高いデータはDWHのメモリー上に展開し、データの「アクセシビリティー（使いやすさ）」を確保しているのです。

　従来のDWHは分析の目的をはっきりさせたうえで、収集するデータを必要なものだけに絞り込んでいました。あらゆるデータをアクセシビリティーが確保された状態で保存しようとすると、コストがかかり過ぎるためです。

　ですが、後から「こんな分析がしたい」と多様なニーズが出てきても、データがない場合がありました。データレイクはあらゆるデータを最初から収集しておくため、専門家らの分析ニーズに対応できます。

　Pivotalジャパンの仲田聰技術統括部テクニカルディレクターは「データレイクには様々なデータがそろっている。何か分析しようと思い立ったとき、すぐに実行できることが特徴だ」と話します。