どこで重複排除するか

 統合バックアップインフラのような規模が大きい環境の場合は、IPネットワークを経由してバックアップを取るケースが多い。そのため重複排除機能を持つバックアップ装置を利用するだけでは十分ではない場合がある。

 例えばフルバックアップのシーンを考えてみよう。重複排除機能を持つバックアップ装置であっても全てのデータをその装置に転送しなければならない。しかし重複排除処理の過程で破棄される(保存されない)ことがわかっているデータをIPネットワーク上に流すのは極めて無駄である。転送するだけで長時間ネットワーク帯域を占有してしまうからだ。

 重複排除機能を持つバックアップ装置と連携してデータを送信する前に重複をチェックできる製品がある。バックアップ対象のクライアント上で連携ソフトが動作し重複を判別することで重複データを送らないようにする仕組みだ。フルバックアップであっても重複していない固有のデータだけしかIPネットワークに流れない。

 クライアント側で重複排除処理をすることで、IPネットワークに負担をかけないバックアップ環境を実現ができる(図5)。一般的に、クライアント側での重複排除を活用するメリットは規模に応じて大きくなる。

図5 重複排除をフル活用したバックアップ環境イメージ
図5 重複排除をフル活用したバックアップ環境イメージ
[画像のクリックで拡大表示]

 次回は、バックアップと混同されがちなアーカイブやストレージ階層化の考え方について紹介する。