多くの商談や現場でわかったHadoop構築のコツ

意思決定の精度向上に効くHadoop
導入の成功に向けた意外なカギとは？

伊藤忠テクノソリューションズ

2014.09.11

一般的なHadoopシステムが抱える3つの課題とは

　ビッグデータ活用に取り組む企業が増えている。データをビジネスに活用するというアプローチは決して新しいものではないが、近年の目覚ましい技術革新によって、これまで分析不可能だった量のデータも分析可能になってきた。そのシステムとして大きな注目を集めているのが、分散配置されたデータを並列処理する「Hadoop」である。

伊藤忠テクノソリューションズ株式会社（CTC）<br />ソリューション事業推進本部<br />ビッグデータ・アナリティクス部<br />ビッグデータプラットフォーム課<br />瓜田幸代氏

伊藤忠テクノソリューションズ株式会社（CTC）
ソリューション事業推進本部
ビッグデータ・アナリティクス部
ビッグデータプラットフォーム課
瓜田幸代氏

　「私どものお客様でも、通信系や流通系を中心にHadoopを導入されるお客様が増えており、大きな成果を上げています」。このように語るのは、CTCでビッグデータプラットフォームを担当する瓜田氏だ。例えば同社の顧客であるマイクロアドでは、毎日100億件に上るデータをHadoopで分析し、広告配信の効果を向上。その他にも、ネットワーク機器のログ分析に活用することで、分析/運用コストを1/5に削減した事例もあるという。

　しかしその一方で、従来のHadoopの構成には問題もある。

　「Hadoopでは分析対象となるデータを、分散型ファイルシステムであるHDFSに格納しますが、業務データや機器のログデータは別ストレージ上にあるため、分析するにはHadoop基盤にデータを取り込む必要があります」と瓜田氏は指摘する。このデータの取り込み時間が分析業務のボトルネックになり、数分の分析のために何時間もデータコピーに費やされるケースもあるという。

　問題はこれだけではない。HDFSは1つのデータを複数のノードに、デフォルトでは3面ミラーで書き込む。実際の3倍分データ保存容量は必要となるが、これによって冗長性を確保し、1つのノード（DataNode）がダウンしても稼働し続けるように設計されている。しかしHDFS全体のメタデータを格納するNameNodeがダウンすると、HDFS全体がサービス停止に陥ってしまう。つまりHDFSには単一障害点が存在するわけだ。また複数のDataNodeに格納されたデータは、バックアップの取得が難しいという問題もある。

図1●一般的なHadoopシステムが抱える課題

[画像のクリックで拡大表示]

これらの中でも特に重要なのがデータコピーの時間であり、分析サイクルの短縮を妨げる大きな要因になっている。

　実際にHadoopを使い始めてから、これらの問題に頭を悩ませているユーザーも多いのではないだろうか。

この先は日経クロステック Active会員の登録が必要です

会員の方はこちら
ログイン
未登録の方はこちら
会員登録

日経クロステック Activeは、IT／製造／建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録（無料）をお願いいたします。

一般的なHadoopシステムが抱える3つの課題とは

この先は日経クロステック Active会員の登録が必要です

編集部イチ押しの資料（ホワイトペーパー）

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

エッジコンピューティング最新事例：カギを握る小型・堅牢サーバーの実力は

日本企業のIT部門が抱える様々な課題を生成AIで解決するソリューションが登場

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

画像認識を顧客対応に生かす：エッジコンピューティングで実現する次代のCX