様々な場面で情報活用への期待が高まっている。この状況を下支えしているのがストレージだ。ストレージの進化なしに、現在の、そしてこれからのIT環境は存在し得ない。“情報爆発”に耐えられるストレージ環境のあり方を探る中で、前回はデータ量そのものを減らす方法として、重複排除を説明した。今回は、ファイルサーバーの運用について考えてみる。

 本連載の第1回で、「ストレージの増加率を容量ベースで見ると、『5年間で10倍』という勢いが、ここ数年前から止まらない状況が続いている」ことを紹介した。これらのデータの8割以上は、テキストファイルや画像、動画、マイクロソフトのOfficeファイルといった非構造化データであることが知られている。つまり、情報爆発をデータの急増という観点からみれば、ファイルサーバーの肥大化が最も深刻な問題になる。

データの要不要を管理者が判断できない

 ファイルサーバーの管理者が常に頭を悩ませているのは、利用者からの「容量が足りない」という不満に対して、毎年のようにハードディスクを追加するしか方法がないことである。個人の環境であれば、容量が圧迫してくれば不要なファイルを消去して、すぐに対応できる。だが、多数の利用者が使用している企業や組織のファイルサーバーにおいては、どのデータが必要で、どのデータが不要なのかを管理者が判断するのは不可能だ。

 ファイルサーバーが肥大すると、これまでに指摘してきたように、データ移行やバックアップに問題を抱えるようになる(関連記事:第3回 ストレージ統合を阻むデータ移行の壁第4回 重複排除でデータ量を削減する)。逆にいえば、管理者がファイルサーバーの内容を把握し、重要なファイルとそうでないファイルを区別できれば、なんらかの対処が可能になるわけだ。

 個人的にそのファイルが重要かどうかは、そのファイルの所有者しか判断ができない。だが、組織としてのファイルの重要度をファイルの特性から判断する概念と手法は一般によく知られている。ILM(Information Lifecycle Management)と、HSM(Hierarchical Storage Management)である。

 ILMは、情報(データ)にもライフサイクルがあると考え、そのサイクルに応じて管理手法を変更すべきであるという概念だ。

 ファイルの場合、作成直後は頻繁に修正され、しばらくの間は参照やコピーが繰り返される。だが、必要な情報としての役目が終わると、そのファイルが参照される機会はほぼゼロになり、ひっそりとファイルサーバーの中に残ったままになる。

 アクセスされなくなったファイルは、それを消去しない限りはディスクを消費したままになってしまう。だが“いつか”その内容が必要になるかもしれないという心理から、それらのファイルを削除するタイミングを逸してしまう。消去の機会が自然に訪れることはない。そこにILMは、頻繁に参照されるデータとそうではないデータの管理に、同じコストをかける必要があるのか、という疑問を投げかけたわけだ。

 ILMの概念に対し、HSMは、ILMのための手法、すなわち具体的な方法論としてストレージに階層を設けて管理することを提唱している。作成直後で修正と参照が頻繁に発生するファイルは可用性・性能の高いストレージに置き、ライフサイクルの終焉を迎えているファイルは可用性・性能ともに低いストレージで管理すれば十分だとする。ストレージシステムに階層を設けることで、コスト削減が期待できる。

 バックアップの頻度についても、ほとんど更新がなく参照もされないファイルを毎日バックアップする必要はない。それらのファイルをまとめて同じ場所に置ければ、運用もシンプルになり、かつコスト削減につながるというメリットがある。