Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供

Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供すると発表しました。このアーカイブは、2011年3月9日から12月23日までの期間に、Alexa社の統計で上位100万に入っているウェブサイトを収集したもので、ファイルフォーマットにはWARC形式が使われています。その収録URL数は27億件に及び、これらのウェブページのテキストデータに加え、可能な範囲で画像や動画データも収集されています。このファイルを利用したいものはメールでコンタクトを取って欲しいとしています。また、このアーカイブに関する統計データがも併せて掲載されています。

80 terabytes of archived web crawl data available for research（Internet Archive Blogs 2012/10/26付け記事）
http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2011 WIDE Crawl (wide00002)
http://archive.org/~vinay/wide/wide-00002.html

参考：
Internet Archiveの保存するデータ容量が10ペタバイトを突破
http://current.ndl.go.jp/node/22079

E947 – ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に
http://current.ndl.go.jp/e947

図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

メインメニュー

Internet Archiveが80テラバイトものウェブアーカイブファイルを研究利用のために提供

メインメニュー

現在地

類似の記事