Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供すると発表しました。このアーカイブは、2011年3月9日から12月23日までの期間に、Alexa社の統計で上位100万に入っているウェブサイトを収集したもので、ファイルフォーマットにはWARC形式が使われています。その収録URL数は27億件に及び、これらのウェブページのテキストデータに加え、可能な範囲で画像や動画データも収集されています。このファイルを利用したいものはメールでコンタクトを取って欲しいとしています。また、このアーカイブに関する統計データがも併せて掲載されています。
80 terabytes of archived web crawl data available for research(Internet Archive Blogs 2012/10/26付け記事)
http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
2011 WIDE Crawl (wide00002)
http://archive.org/~vinay/wide/wide-00002.html
参考:
Internet Archiveの保存するデータ容量が10ペタバイトを突破
http://current.ndl.go.jp/node/22079
E947 – ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に
http://current.ndl.go.jp/e947