Internet Archive

Internet Archive、ウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”で200TBのデータを収集

2017年5月9日、米・オバマ大統領任期満了にともなう連邦政府機関のウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”において、Internet Archive(IA)が、2016年秋から2017年春にかけて、200テラバイトのウェブサイト及びパブリックデータの収集を行なったと発表しています。

収集データは100テラバイトのウェブページと100テラバイトのパブリックデータからなり、3億5千万件以上のURL/ファイル、7千万件以上のhtmlページ、4千万件以上のpdfファイル等が含まれ、Waybackマシーンから閲覧できるほか、2016年取集分を“End of Term”のポータルサイトに間もなく追加する予定とのことです。

その他、Waybackマシーン(beta)のサマリー機能を用いた収集データに関する予備統計のページや、IAが収集した全データのページ“End of Term 2016 Web Crawls”も公開されています。

Internet Archive、マッキントッシュの初期モデルのソフトウェアをエミュレートしたコレクション“Software Library: Macintosh”を公開

2017年4月16日、Internet Archive(IA)が、アップル社のマッキントッシュの初期モデルのソフトウェアをエミュレートしたコレクション“Software Library: Macintosh”を公開しました。

1984年から1989年までに発表されたアプリケーション、ゲーム、OSから選定された43のソフトが公開されています。

Early Macintosh Emulation Comes to the Archive(IA,2017/4/16)
http://blog.archive.org/2017/04/16/early-macintosh-emulation-comes-to-the-archive/

Software Library: Macintosh(IA)
https://archive.org/details/softwarelibrary_mac

Internet Archive、消失したウェブページのアーカイブを自動的に表示させるChrome拡張機能を公開

2017年1月13日、Internet Archive(IA)が、閲覧したいウェブページが消失していた場合、 Wayback Machineに保存されているアーカイブデータを自動的に検索して表示させる、ウェブブラウザGoogle Chrome用の拡張機能を公開したと発表しています。

Wayback Machine Chrome extension now available(IA,2017/1/13)
https://blog.archive.org/2017/01/13/wayback-machine-chrome-extension-now-available/

Internet Archive(IA)、“Trump Archive”を公開

2017年1月5日、Internet Archive(IA)は、“Trump Archive”を公開しました。

このアーカイブには、IAの“TV News Archive”から、スピーチ、インタビュー、ディベートなど米国のDonald Trump次期大統領に関する約750のテレビ放送のビデオコンテンツが収録されています。収録範囲は2009年12月から現在までのコンテンツで、収録時間は520時間を超えています。移民などに関する500以上の事実確認がされたステートメントが含まれています。収録されているコンテンツの字幕の検索も可能です。現在も、コレクションの拡大や検索の効率性の向上のための作業が進行中とのことです。

このアーカイブへ追加された資料についてはRSSフィードが利用可能です。

IAは、このアーカイブは他の公務員に関するアーカイブを作成するための実験的なモデルであると考えています。

Internet Archive’s Trump Archive launches today(Internet Archive Blogs, 2017/1/5)
https://blog.archive.org/2017/01/05/internet-archives-trump-archive-launches-today/

Trump Archive(IA)

Internet Archive、収集したホワイトハウスのソーシャルメディアや米・連邦政府のウェブデータを用いたハッカソンを開催

Internet Archive(IA)が、2017年1月7日に、収集したホワイトハウスのソーシャルメディアデータ(2009年から現在まで)や政府のウェブデータ(2008年、2012年、2016年)、今回の大統領選挙関係のデータといったコレクションを用いた非公式のハッカソンを開催すると発表しています。

Join us for a White House Social Media and Gov Data Hackathon!(IA,2017/1/2)
http://blog.archive.org/2017/01/02/join-us-for-a-white-house-social-media-and-gov-data-hackathon/

参考:
Internet Archive、米国大統領選挙のウェブアーカイブ構築への支援を呼びかけ
Posted 2016年11月14日
http://current.ndl.go.jp/node/32928

ホワイトハウス、オバマ政権がソーシャルメディア上で発信した情報を米国国立公文書館で保存すると発表
Posted 2016年11月2日
http://current.ndl.go.jp/node/32861

Internet Archive、米国大統領選挙のウェブアーカイブ構築への支援を呼びかけ

2016年11月11日、Internet Archive(IA)が、専用のウェブフォームから収集して欲しいウェブ情報を通知することを通じて、IAによる今回の米国大統領選挙のウェブアーカイブ構築事業を支援して欲しいと呼びかけています。

Please: Help Build the 2016 U.S. Presidential Election Web Archive(IA,2016/11/11)
http://blog.archive.org/2016/11/11/contribute-to-the-2016-u-s-presidential-election-web-archive/

Internet ArchiveとWikimedia財団、ウィキペディア(英語版)のリンク切れをアーカイブされた情報に置き換えた数が100万を超えたと発表

2016年10月26日、Internet Archive(IA)とWikimedia財団は、ウィキペディア(英語版)のリンク切れを、IAが収集したアーカイブ版に置き換えた数が100万を超えたと発表しています。

IAでは、この3年間、英語版のウィキペディアから外部へのリンクを監視し、記事が修正され新たなリンクが追加された場合にはそれらウェブ情報の収集を行なっており、リンク先にアクセスできなくなった際、ウィキペディアンが作成したソフトウェアを用いて、Wayback Machine 内にある収集済のウェブ情報にリンク先を置き換えることをしてきました。

今後は、300あるウィキペディアの各言語版でも同様なことを行なうための方法を検討するとのことです。

More than 1 million formerly broken links in English Wikipedia updated to archived versions from the Wayback Machine(IA,2016/10/26)

Internet Archive、Wayback Machine(beta)にキーワード検索機能を追加

2016年10月24日、Internet Archive(IA)が、これまでURLからしか検索できなかった、取集したウェブページ等へのアクセスを提供する“Wayback Machine”のbeta版にキーワード検索機能を追加したと発表しています。

検索すると、関連するアーカイブされたウェブサイトのホームページのリストが、アーカイブされた情報へのリンク、現在のホームページのサムネイル画像(現在も利用可能な場合)、含まれるコンテンツ(ウェブページ・画像・音声・動画)の数などといったものとともに表示されます。

Beta Wayback Machine - Now with Site Search!(IA,2016/10/24)
http://blog.archive.org/2016/10/24/beta-wayback-machine-now-with-site-search/

OCLCのURLの一貫性を保障するサービス“PURL”、今後はInternet Archiveが運用

2016年9月27日、OCLCとInternet Archive(IA)は、OCLCが行なってきたURLの一貫性を保障するサービス“PURL”について、これからは、IAが運用すると発表しています。

OCLC and Internet Archive work together to ensure future sustainability of Persistent URLs(OCLC,2016/9/27)
http://www.oclc.org/news/releases/2016/201623dublin.en.html

米・ペンシルバニア大学図書館、大学ウェブサイトのアーカイブを開始

2016年8月30日、米・ペンシルバニア大学図書館が、ペンシルバニア大学のウェブサイトをアーカイブする取組みを開始したことを発表しています。

同館の収集及びリエゾンサービス部門の責任者が、同大学のウェブサイトを組織的にアーカイブする部門がないことに気づいて始めたもので、収集対象は、大学のメインのウェブサイトと、図書館、ミュージアム、文書館のウェブサイトとなっており、年4回収集されます。

収集には、Internet Archiveのウェブアーカイブコレクション構築サービス“Archive-It”を用いています。

Penn Libraries’ New Penn Website Archive(University of Pennsylvania,2016/8/30)
http://www.upenn.edu/almanac/volumes/v63/n03/website-archive.html

ページ