Hadoopを支える「HDFS」

森山徹＝日経コンピュータ

2012.09.27

出典：日経コンピュータ 2012年6月7日号 pp.102-103
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

　Hadoopの高速性をひも解くとき、分散ファイルシステム「HDFS」の存在は欠かせない。MapReduceと協調して行う“ローカル処理”は、バッチ処理の高速化に向くアーキテクチャーだ。そんなHDFSにも、BIツールなどが使いづらいという課題がある。HDFSの代替製品をHadoopに組み込む動きは、その解決を目指すものだ。

　「HDFS（Hadoop Distributed File System）」は、その名の通り分散バッチ処理ソフト「Apache Hadoop」向けのファイルシステムだ。ファイルを分割して複数のディスクで管理、大量データ処理のスループットを引き上げる。最近になり、HDFSの課題を解決しようと、代替製品をHadoopに組み込む例が増えてきた。

　HDFSが大量データを効率よく処理するための工夫は、大きく二つある。一つは、データを複数のディスクから並行して読み、処理の多重度を上げることだ。「テラバイト級のデータを読み込むには、ディスクの単体性能を上げても追いつかない。そこで、数多くのディスクを並べ、そこから同時に読み出そうと考えた」。NTTデータ基盤システム事業本部シニアエキスパートの濱野賢一朗氏は、HDFSの狙いをこう話す。

　HDFSは、DataNodeとNameNodeの二つの構成要素から成る。ファイルは一定サイズのブロック（デフォルトは64Mバイト）に分割し、DataNodeが管理するディスクに格納する。各ブロックを多重化（デフォルトで3重化）して保存することで、ディスク障害などに備えている（図1）。

図1●HDFSはデータをブロック単位に格納

HDFSは、複数のDataNodeにまたがる形でデータを格納。NameNodeがファイル名やブロックの位置情報などを管理する

[画像のクリックで拡大表示]

この先は日経クロステック Active会員の登録が必要です

会員の方はこちら
ログイン
未登録の方はこちら
会員登録

日経クロステック Activeは、IT／製造／建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録（無料）をお願いいたします。

Hadoopを支える「HDFS」

この先は日経クロステック Active会員の登録が必要です

このコラムのバックナンバー

ビッグデータ高速処理技術

Hadoop連携を高速に

データベースも「ハイブリッド型」へ

異常を見抜く「インバリアント分析」

100ギガに突入するInfiniBand

この先は日経クロステック Active会員の登録が必要です

編集部イチ押しの資料（ホワイトペーパー）

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

エッジコンピューティング最新事例：カギを握る小型・堅牢サーバーの実力は

日本企業のIT部門が抱える様々な課題を生成AIで解決するソリューションが登場

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

画像認識を顧客対応に生かす：エッジコンピューティングで実現する次代のCX

このコラムのバックナンバー

ビッグデータ高速処理技術

Hadoop連携を高速に

データベースも「ハイブリッド型」へ

異常を見抜く「インバリアント分析」

100ギガに突入するInfiniBand