Internet Archive、ウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”で200TBのデータを収集

2017年5月9日、米・オバマ大統領任期満了にともなう連邦政府機関のウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”において、Internet Archive(IA)が、2016年秋から2017年春にかけて、200テラバイトのウェブサイト及びパブリックデータの収集を行なったと発表しています。

収集データは100テラバイトのウェブページと100テラバイトのパブリックデータからなり、3億5千万件以上のURL/ファイル、7千万件以上のhtmlページ、4千万件以上のpdfファイル等が含まれ、Waybackマシーンから閲覧できるほか、2016年取集分を“End of Term”のポータルサイトに間もなく追加する予定とのことです。

その他、Waybackマシーン(beta)のサマリー機能を用いた収集データに関する予備統計のページや、IAが収集した全データのページ“End of Term 2016 Web Crawls”も公開されています。

Over 200 terabytes of the government web archived!(IA,2017/5/9)
http://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/

collection-eot2016-waybacksummary(IA)
https://web-beta.archive.org/details/collection-eot2016-waybacksummary

End of Term 2016 Web Crawls(IA)
https://archive.org/details/EndOfTerm2016WebCrawls&tab=about

End of Term Web Archive
http://eotarchive.cdlib.org/

参考:
米・オバマ大統領任期満了にともなうウェブアーカイブプロジェクト“End of Term 2016 archive”:収集を希望するウェブ情報の推薦を受け付け中
Posted 2016年9月1日
http://current.ndl.go.jp/node/32443

Internet Archive、収集したホワイトハウスのソーシャルメディアや米・連邦政府のウェブデータを用いたハッカソンを開催
Posted 2017年1月5日
http://current.ndl.go.jp/node/33207