もはや「データウエアハウス」は古い考え方になりつつある。使うかどうかなどを意識せず、ひたすらデータをためる時代が来た。ためる技術の進化と同時に、判断できるマシン(機械)の開発も進む。競争力を高める最新のビッグデータ技術29項目を一挙公開しよう。

 データレイク(湖)――。2014年に入って、米国のHadoopユーザーの間で、この言葉が急速に広がっている(BigData072)。

[画像のクリックで拡大表示]

 企業は「人工湖」を作り、雨のように降り注ぐビッグデータをもれなく蓄積しよう、というコンセプトだ。これまで企業が大量データを保管する場所といえば、データウエアハウス(DWH、データの倉庫)だったが、それとは違う。

 データレイクは、従来のDWHが対象としていた「構造化データ(分析することを想定してあらかじめ整形したデータ)」だけでなく、利用するかどうか分からない「非構造化データ(整形していない様々な形式のデータ)」も蓄積するという考え方である。

 「企業内で発生するあらゆるデータを、使うかどうかに関係なく活用可能な状態でためておくことが重要になる」。ビッグデータ事情に詳しい米ガートナーのマーブ・エイドリアン リサーチVP(バイス・プレジデント)は、こう指摘する。

 その理由は、「必要ないだろう」と思っていたデータから“宝”を見つけ出す手法が急速に高度化しているからだ。データ蓄積コストが着実に下がってきた現在、「使うかどうかを気にせず、あらゆるデータをひたすらためる」のが、今後のトレンドになる。

未知のデータを“探検”、宝を見つける

 データレイクの中から宝を見つけ出す手法として米国で注目を浴び始めているのが、「データエクスプロレーション」と「データディスカバリー」、「ディープラーニング(深層学習)」と呼ぶものだ(BigData073、074)。

 「データエクスプロレーションは、これまで分析していなかったデータを“探検”し、未知の事実を見つけ出すこと」。BIツールを手掛ける米マイクロストラテジーのマイケル・ヒスキーVPはこう指摘する。

 これに対し、決められた範囲のデータの中から経営判断などに必要な情報を発見する従来手法は「データディスカバリー」と呼ぶ。BIや検索はデータディスカバリーに当たる。

 データレイク内には、これまで分析の対象外だった未知のデータが詰まっている。ここから競争力に役立ちそうな宝、つまり知見を引き出すために有効なのが「クラスター分析」や「回帰分析」といった統計解析手法であり、再び注目を浴びている。

 宝を見つけ出す作業は、人間だけのものではない。“機械”をフル活用する手もある。データサイエンティストの育成は重要だが、データの量と種類が爆発的に増加するにつれ、人手だけでは限界が来るからだ。

 そのための新たな選択肢として知っておきたいのが、データの中から知識・ルールを機械が獲得する「機械学習」や、その進化形であるディープラーニングだ。

 ディープラーニングは、従来の機械学習で人間が判断・決定していた部分さえも、機械が代行する。対象となる膨大なデータを、従来の機械学習技術よりも「深く」掘り下げて分析し、機械が分析対象の特徴を自動的に見つけ出す。特徴とは画像であれば大きさや色、特徴線のこと。音声であれば声色、抑揚などを指す。

 こうした特徴を、従来の機械学習では、人間が決めていた。いわば“半自動”のデータ分析だった。

 それに対しディープラーニングは、特徴そのものを機械が大量のデータの中から自力で見つけ出す。人間の判断は一切介在しない“全自動”に近いデータ分析といえる。ディープラーニングを使えば、機械学習に比べてデータ分析の精度を高めることができる。

BigData 075●機械単独で猫を発見 単語で画像検索OK(画像認識)
BigData 075●機械単独で猫を発見 単語で画像検索OK(画像認識)
ディープラーニング(深層学習)の適用例

 ディープラーニングの象徴が、右側に掲載した「ピントがぼけたような猫の画像」だ。

 これは、米グーグルがディープラーニングを活用し、1000万枚の「YouTube」の画像から見つけ出した「猫の画像モデル(共通イメージ)」である。グーグルが2012年に発表した論文によれば、グーグルはディープラーニングを使用することで、画像認識の精度を約7割向上させたという(BigData075)。