注目の書籍

好評発売中!

IT業界徹底研究就職ガイド2013年版

IT/ネット業界で働くと いうことを分かりやす く解説。2013年3月卒 業の学生向けの1冊。

必聴講座ご紹介

Cloud Days Tokyo 2012
クラウド時代を勝ち抜く企業戦略を考える

エムオーテックス


Cloud Days Tokyo 2012
クラウド時代の企業インフラとユーザー環境の姿

ヴイエムウェア


Cloud Days Osaka 2012
クラウドでIT維新を〜ビジネスを加速させるベストプラクティス

アマゾン データ サービス ジャパン

情報システム

米国最新IT事情

ITpro

米議会図書館がWWW上のコンテンツを対象に巨大なアーカイブ作成に乗り出す

2003/02/24

 「膨大な情報をどう管理するか」というのは,現代人の大きなテーマである。「現代社会の」と言い換えてもいいかもしれない。World Wide Webの誕生とともに,それ以前とは比較にならないスピードで情報が生成されるようになったが,これと同じペースで情報が「失われる」ようになった。昨日まで「ここにあった」はずのホームページが,今日はもう「そこにはない」。

 読者の中にも,「調査に使うつもりだったのに,さて困った」という経験をした方が多いのではなかろうか。新しい便利さは,必ず新しい不便さを生み出す。

 こうした問題を解決するために,米国のLibrary of Congress(日本の国会図書館に相当する)は,「WWW上のホームページを蓄積して,アーカイブ(データベース)化する」プロジェクトを開始した。先ごろ連邦議会で2500万ドルの予算がついたところだ。

 このプロジェクトは,要するに国会図書館が,新聞,雑誌から書籍,CDまで,過去のあらゆる著作物を保存してきたのと同様,「これからはWWW上のホームページや,そこを行き交うデジタル著作物も保存しよう」というものである。

 実世界の印刷物とサイバー・スペース上のコンテンツでは,日々生み出される情報量がけた違いなので,極めて難しい試みとなるだろう。似たようなプロジェクトは非営利団体のInternet Archiveが96年に開始しているが,Library of Congressの計画は,それとは比較にならないほど大規模なものになる。

どこまで保存するか,技術標準を統一できるか,などが検討項目に

 National Digital Information Infrastructure and Preservation Program(NDIPP)と呼ばれる同計画では,アーカイブ作成に着手する準備として,いくつかの検討項目を洗い出している。
 それは,

(1)どこまで保存するか
 一口にホームページといってもいろいろある。全部集めようとしたらキリがないし,事実上,不可能である。書籍やCDなど従来の著作物であれば,既に「モノになった」段階で他者との差異化が完了しているので,図書館はそれらを集めて保存すれば良かった。WWW上では,その差異化が完了していない。個人のホームページでも貴重なデータは存在しており,無視してしまうわけにはいかない。「何を保存し,何を捨てるか」という切り分けが難しい。

(2)データのフォーマットや,再生プレイヤの技術標準を統一できるのか
 現時点でも多様なフォーマットや技術標準が乱立している。これから時間が経てば,その数はさらに増加するだろう。現在のフォーマットで保存されたデータが,100年後には全く読めなくなっている恐れがある。

(3)出版社の協力が得られるのか
 これは必ずしもアーカイブに限った話ではないが,デジタル著作権の保護という問題がある。たとえば図書館に収められた書籍であれば,貸し出しを許しても,そう簡単に多数のコピー(multiple copy)を作ることは不可能だった。だからこそ出版社やレコード会社の方でも,図書館での一般利用(アクセス)を許可してきたのだ(いわゆるFair Useの原則である)。
 ところがWWW上の著作物となると,それに利用者がアクセスすることが即multiple copyに結びつく恐れがある(一旦プロテクションが外されれば,瞬時にWWW上に広がるからだ)。従って今回のようなアーカイブ計画には,出版社などが協力を渋るかもしれない。

 ざっと以上なような問題だ。いずれも答えが出るのは,これからである。

デジタル・アーカイブの分散管理と集中管理の最適バランスを模索する

 デジタル・アーカイブの重要性は,我々の身近な生活に引き寄せて考えると理解しやすい。最近では文書ばかりでなく,自分が見たテレビ番組やビデオまで,デジタル化してHDに保存しておく人も珍しくなくなった。多様なデータをディスクに保存して,後から自由自在に検索できれば,我々の知見は格段に向上するはずだ。特にビジュアル・データは,文書では伝えきれないリアルな記録となる。

 しかし,これはメチャクチャにディスク容量を食ってしまう。Mosaicの発明者として知られるMark Andreesenは,文書から映像ドキュメンタリまで,とにかく自らが目を通した情報は手当たり次第に保存しているらしい。デジタル・データに索引をつければ瞬時に検索できるからだ。問題は,データを圧縮しても,すぐにHDが一杯になってしまうので,それこそ次から次へとディスクを追加しなければならないことだという。

 この話は数年前の雑誌記事で読んだだけなので,彼は今ではもっと効率的な方法を採用しているかもしれない。しかし現在の一般ユーザーは,恐らく数年前のAndreesenと同じレベルにあるだろう。特に日本では,パソコンとTVの一体型商品が売れているから,テレビ番組をHDに保存することは簡単である。また最近では主力家電メーカーが揃って,VTRからHDレコーダへの転換を進めている(アメリカで相変わらず人気のないTivoなどDVRの仕様を簡略化した商品だ)。

 映画やテレビ・ドキュメンタリなど,映像データは今やハード・ディスクに保存する時代だが,こうした新製品の仕様を見る限り,やはり容量が足りない。15万円を超える高級商品でもHDの容量はせいぜい120GB。1時間のテレビ番組をMPEG2で保存すると約1・5GBになるので,このディスク容量では80本程度の番組しか保存できない。この程度では,あっという間に一杯になってしまう。

 「HDが一杯になったら,DVDに移せばいいではないか」という考えもあるが,それでは役に立たないのである。というのは別の媒体に移してしまうと,突如,管理が難しくなるからだ。すなわちハード・ディスク上で一元管理しておけば,データベース・ソフトを使って瞬時に検索できる。ところが何枚ものDVDにデータを分散させてしまうと,結局,後でそれが必要になったとき,「あのデータ,どこに保存したっけ?」と棚を探し回ることになるのは必定だからだ。これでは「昔使った資料が見つからない」と本棚を探し回る,これまでの我々と全く変わらないのである。

 とにかく大量のデータを一元管理できない限り,長い年月が経つと,それは「存在しないのと同じ」になってしまうのだ。

 ディスクの記憶密度が飛躍的に高まるまで,当面は今の容量で我慢しなければならない。となると,やはり「何でもかんでも自分のディスクに保存する」よりは,ネットワークを使って分散させた方が賢明である。こうなると結局,WWWという分散システムの有効性に帰着するのである。「データを持たなくても,在り処さえ記録しておけばいつでも利用できる」というのは,本当に進んだアイデアなのだ。

 しかし分散したデータの管理は,他者に任されるので,今度はそれがいつまでも保存されるという保証はない。NDIPPのアーカイブ計画は,分散管理と集中管理の最適バランスを見出すプロジェクトとも言える。

この記事に対するfacebookコメント

nikkeibpITpro

読みましたか? 〜 未読記事をご紹介