一般的なHadoopシステムが抱える3つの課題とは

 ビッグデータ活用に取り組む企業が増えている。データをビジネスに活用するというアプローチは決して新しいものではないが、近年の目覚ましい技術革新によって、これまで分析不可能だった量のデータも分析可能になってきた。そのシステムとして大きな注目を集めているのが、分散配置されたデータを並列処理する「Hadoop」である。

伊藤忠テクノソリューションズ株式会社(CTC)<br />ソリューション事業推進本部<br />ビッグデータ・アナリティクス部<br />ビッグデータプラットフォーム課<br />瓜田 幸代 氏
伊藤忠テクノソリューションズ株式会社(CTC)
ソリューション事業推進本部
ビッグデータ・アナリティクス部
ビッグデータプラットフォーム課
瓜田 幸代 氏

 「私どものお客様でも、通信系や流通系を中心にHadoopを導入されるお客様が増えており、大きな成果を上げています」。このように語るのは、CTCでビッグデータプラットフォームを担当する瓜田氏だ。例えば同社の顧客であるマイクロアドでは、毎日100億件に上るデータをHadoopで分析し、広告配信の効果を向上。その他にも、ネットワーク機器のログ分析に活用することで、分析/運用コストを1/5に削減した事例もあるという。

 

 しかしその一方で、従来のHadoopの構成には問題もある。

 「Hadoopでは分析対象となるデータを、分散型ファイルシステムであるHDFSに格納しますが、業務データや機器のログデータは別ストレージ上にあるため、分析するにはHadoop基盤にデータを取り込む必要があります」と瓜田氏は指摘する。このデータの取り込み時間が分析業務のボトルネックになり、数分の分析のために何時間もデータコピーに費やされるケースもあるという。

 問題はこれだけではない。HDFSは1つのデータを複数のノードに、デフォルトでは3面ミラーで書き込む。実際の3倍分データ保存容量は必要となるが、これによって冗長性を確保し、1つのノード(DataNode)がダウンしても稼働し続けるように設計されている。しかしHDFS全体のメタデータを格納するNameNodeがダウンすると、HDFS全体がサービス停止に陥ってしまう。つまりHDFSには単一障害点が存在するわけだ。また複数のDataNodeに格納されたデータは、バックアップの取得が難しいという問題もある。

図1●一般的なHadoopシステムが抱える課題
図1●一般的なHadoopシステムが抱える課題
[画像のクリックで拡大表示]
これらの中でも特に重要なのがデータコピーの時間であり、分析サイクルの短縮を妨げる大きな要因になっている。

 実際にHadoopを使い始めてから、これらの問題に頭を悩ませているユーザーも多いのではないだろうか。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。