Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供
Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供すると発表しました。このアーカイブは、2011年3月9日から12月23日までの期間に、Alexa社の統計で上位100万に入っているウェブサイトを収集したもので、ファイルフォーマットにはWARC形式が使われています。その収録URL数は27億件に及び、これらのウェブページのテキストデータに加え、可能な範囲で画像や動画データも収集されています。このファイルを利用したいものはメールでコンタクトを取って欲しいとしています。また、このアーカイブに関する統計データがも併せて掲載されています。
80 terabytes of archived web crawl data available for research(Internet Archive Blogs 2012/10/26付け記事)
http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
2011 WIDE Crawl (wide00002)
http://archive.org/~vinay/wide/wide-00002.html
参考:
Internet Archiveの保存するデータ容量が10ペタバイトを突破
http://current.ndl.go.jp/node/22079
E947 - ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に
http://current.ndl.go.jp/e947
- 参照(3042)
- 印刷用ページ
類似の記事
- CA1930e- A Snapshot Model for Web Archiving: Stanford East Asia Library’s Japanese Web Archive / Regan Murphy Kao
- E947- ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に
- E1543e- Collection of Disaster Related Web Contents and Use of Social Bookmarks
- ウェブアーカイブの保存用ファイルフォーマットWARCに関するISO規格が改訂
- Internet Archive、ウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”で200TBのデータを収集