ウェブはいったいどれくらいアーカイブされているか?(文献紹介)

米国バージニア州にあるオールドドミニオン大学の研究者らが、2011年6月にカナダで開催された電子図書館に関する国際会議Joint Conference on Digital Librariesで“How Much of the Web Is Archived?”という論文を発表しました。この論文は、「ウェブはいったいどれくらいアーカイブされているか?」という問題を扱ったものです。

彼らは、Open Directory Project (DMOZ)、ソーシャルブックマークサービス“Delicious”、URL短縮サービス“bitly”、サーチエンジン(Google、Yahoo!、Bing)のキャッシュという4種類のソースから、各1,000件・合計4,000件のURLをサンプル抽出し、それぞれのURLが、Internet Archive、サーチエンジンのキャッシュ、UK National Archivesなどのウェブアーカイブのどれくらいに保存されているかを調査したそうです。

あるURLがどれくらいアーカイブされているかどうかは抽出元のソースによって幅があり、論文のアブストラクトによると、以下のような結果だったそうです。
・35~90%のURLは少なくとも1つのアーカイブに保存されていた
・17~49%のURLは2から5つのアーカイブに保存されていた
・1~8%のURLは6から10のアーカイブに保存されていた
・8~63%のURLは少なくとも10のアーカイブに保存されていた
・月1回以上の頻度でアーカイブされているURLは14.6~31.3%のみ

How Much of the Web Is Archived?
http://www.cs.odu.edu/~mweigle/papers/ainsworth-jcdl11.pdf

How Much of the Web is Archived? (Web Science and Digital Libraries Research Groupのブログ 2011/6/23付け記事)
http://ws-dl.blogspot.com/2011/06/2011-06-23-how-much-of-web-is-archived.html

Old Dominion U. Researchers Ask How Much of the Web Is Archived (Wired Campus 2011/7/6付け記事)
http://chronicle.com/blogs/wiredcampus/old-dominion-u-researchers-ask-how-much-of-the-web-is-archived/32068

JCDL2011
http://www.jcdl2011.org/