重複排除機能を持つバックアップ装置

 ここでは、最も利用されている「最後の砦」となる外部バックアップ装置について注目したい。

 一昔前までは単体のテープ装置や複数本のテープを装備できるテープライブラリーが主流だった。その後、ディスクドライブの低価格化に伴い信頼性や性能などの面で優れるディスクベースのバックアップが利用されるようになってきた。昨今ではその中でも重複排除機能を持つディスクバックアップ装置が主役となってきている。単なるディスクベースのバックアップでは、世代管理運用のために必要となる保存容量の増大、それに伴うコストの増大が問題となるためだ。

 最も典型的なケースでは、週末にフルバックアップを取り、平日は増分バックアップを取る。これが1世代になる。一般的には最低でも2世代保持し、1ヶ月前のデータを戻す必要がある場合は4世代や5世代のバックアップを保持する。容量の観点で考えると、1世代で5TBの場合には2世代保持で10TB、4世代保持で20TBの容量を保存することとなる。世代数に比例して保存容量が増え、その結果コストが上昇してしまう。保持する世代数を減らすなどの本末転倒の事態を招いてしまうケースが多いのはこのためだ。

 ここで注目すべき点は、一般的に日々の変更データ量は少なく世代間のデータには違いが僅かしかない点だ。つまり、大部分のデータが重複する。重複排除機能を持つバックアップ装置であれば、この重複する大量のデータを保持する必要がない。極めて高い容量効率で複数世代のバックアップ運用が実現できコスト低減につながる(図3)。

図3 重複排除で保存容量を削減
図3 重複排除で保存容量を削減
[画像のクリックで拡大表示]

 重複排除機能の仕組みはこうだ(図4)。バックアップ装置は送られてきたデータを細かく分割する。多くの製品が、重複排除効率が最も高くなるようにデータ長を変えながら分割する可変長タイプだ。次に分割したデータが装置内の保存データと重複していないかをチェックする。重複していなければそのまま保存し、重複していれば保存せずに管理情報だけを更新する。

図4 重複排除の動作イメージ
図4 重複排除の動作イメージ
[画像のクリックで拡大表示]

 また、重複排除機能は、サイト障害に備えるために利用するバックアップ装置間のレプリケーションにおいてもメリットがある。レプリケーションはWAN回線を流れるデータ量がポイントになるが、重複排除後は重複していないデータだけしかリモートサイトへ送信されない。そのためWAN回線の利用帯域を減らすことができる。