ウェブアーカイブ

Internet Archive、ウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”で200TBのデータを収集

2017年5月9日、米・オバマ大統領任期満了にともなう連邦政府機関のウェブアーカイブの共同プロジェクト“End of Term Presidential Harvest 2016”において、Internet Archive(IA)が、2016年秋から2017年春にかけて、200テラバイトのウェブサイト及びパブリックデータの収集を行なったと発表しています。

収集データは100テラバイトのウェブページと100テラバイトのパブリックデータからなり、3億5千万件以上のURL/ファイル、7千万件以上のhtmlページ、4千万件以上のpdfファイル等が含まれ、Waybackマシーンから閲覧できるほか、2016年取集分を“End of Term”のポータルサイトに間もなく追加する予定とのことです。

その他、Waybackマシーン(beta)のサマリー機能を用いた収集データに関する予備統計のページや、IAが収集した全データのページ“End of Term 2016 Web Crawls”も公開されています。

国立国会図書館インターネット資料収集保存事業、2017年4月の特集「熊本地震」を公開

2017年4月3日、国立国会図書館(NDL)は、インターネット資料収集保存事業(WARP)の2017年4月の特集として「熊本地震」を公開しました。

熊本地震発生から1年を迎え、WARPで収集した、被害を受けた自治体の地震前(通常ページ)と地震後(災害用ページ)のウェブサイトを取り上げています。

今月の特集(2017年4月) - 熊本地震 -(WARP)
http://warp.da.ndl.go.jp/contents/special/special201704.html

今月の特集(2017年4月) - 熊本地震後に頻度をあげて収集したウェブサイトの一覧 -(WARP)
http://warp.da.ndl.go.jp/contents/special/special201704_list.html

CA1893 - ウェブアーカイブの利活用に向けた動き―世界の潮流とWARPの取組― / 前田直俊

1990年代半ばにウェブアーカイブが行われ始めてから20年が経過し、その間、技術開発、法整備、運用構築、普及活動など様々な分野で取組が行われてきた。この数年はとりわけ利活用に向けた議論が活発になっている。本稿は、そうした動きと背景について概観するとともに、国立国会図書館インターネット資料収集保存事業(WARP)における利活用の取組を紹介する。

国立国会図書館のインターネット資料収集保存事業(WARP)、「科研費ウェブサイトコレクション」を公開

2017年3月23日、国立国会図書館のインターネット資料収集保存事業(WARP)が、「科研費ウェブサイトコレクション」を公開しました。

これはWARPが公開している「特色あるコレクション」のコンテンツのひとつです。WARPで保存している、科学研究費助成事業の助成を受けた研究の概要などを公開しているウェブサイトのうち、「研究種目」が新たな学問領域の形成を支援する「新学術領域研究」である研究のウェブサイトをまとめたものです。

科研費ウェブサイトコレクション(WARP)
http://warp.da.ndl.go.jp/contents/reccommend/collection/kaken.html

米・国家デジタル管理連盟、報告書“Web Archiving in the United States: A 2016 Survey”を公開

2017年3月14日、米国の国家デジタル管理連盟(National Digital Stewardship Alliance:NDSA)が、報告書“Web Archiving in the United States: A 2016 Survey”を公開しました。

2016年1月20日から2月16日にかけて、米国内のウェブアーカイブ実施機関や同事業を計画してる機関を対象に、その現状を調査したものです。

調査結果の特徴として

事業化の進展、プログラムの著しい進捗(データ収集/評価・選択/ビジョンと目的の分野で進捗が著しく、利活用/メタデータ/品質保証と分析の分野で進捗が乏しい)、Archive-Itなどの外部サービスを活用して収集したデータを自らのサーバ等に移行していている機関は20%以下、担当職員が常勤である割合が低い、プログラム開発と成功に必要な能力はアーカイブツールの取り扱い/評価と選択/品質保証の3点

ということが指摘されています。

そして、品質保証のための技術から政策やマネジメントまでの幅広い分野での連携への関心が高いが、多くの機関では、連携事業を実施したり参加するためのリソースが不足していることが述べられています。

米・最高裁判所の判決文に引用されたウェブ情報を保存する“U.S. Supreme Court Web Citations”(記事紹介)

2017年3月13日付の米・法律情報保存連合会(Legal Information Preservation Alliance)のブログで、米・最高裁判所の判決文に引用されたウェブ情報を保存する“U.S. Supreme Court Web Citations”が紹介されています。

以前から問題となっていた、米・最高裁判所の判決文のウェブ情報の引用のリンク切れに対応するもので、米・カリフォルニア大学バークレー校のロースクールとアプリケーション開発者が連携して作成しました。

最高裁判所が判決を公表すると、そのpdfファイルをダウンロードし、テキストに変換した上で引用されたウェブ情報を探し、担当者が評価の上、法律分野のオンライン上の参照文献の保存サービス“perma.cc”のAPIを利用して該当情報をアーカイブします。

また、新しい判決文から引用情報が収集された際に登録者に通知する機能もあるとのことです。

東北大学、「動画でふりかえる3.11―東日本大震災公開動画ファインダー―」を公開

2017年2月10日、東北大学災害科学国際研究所は、東日本大震災の津波の発生状況・被害を映像でたどることができる動画検索システム「動画でふりかえる3.11-東日本大震災公開動画ファインダー-」を公開しました。

このウェブサイトでは、インターネット上に公開されている動画から、東日本大震災に関連するものだけを選んでリンクし、「どこで」撮影されたものか分かるように、撮影された「場所」を地図上にプロットしています。2017年2月現在、約1,700件の東日本大震災に関する動画がリンクされています。

津波の来襲状況や被害に関する動画検索システム「動画でふりかえる3.11 ―東日本大震災公開動画ファインダー―」を公開しました(東北大学、2017/2/10)
http://www.tohoku.ac.jp/japanese/2017/02/press20170210-01.html

「動画でふりかえる3.11」-東日本大震災公開動画ファインダー-
http://311movie.irides.tohoku.ac.jp/SearchPage?16

参考:
【イベント】「第8回DAN(Digital Archive Network)ワークショップ」開催(2/17・岩手)
Posted 2017年2月1日

Internet Archive、消失したウェブページのアーカイブを自動的に表示させるChrome拡張機能を公開

2017年1月13日、Internet Archive(IA)が、閲覧したいウェブページが消失していた場合、 Wayback Machineに保存されているアーカイブデータを自動的に検索して表示させる、ウェブブラウザGoogle Chrome用の拡張機能を公開したと発表しています。

Wayback Machine Chrome extension now available(IA,2017/1/13)
https://blog.archive.org/2017/01/13/wayback-machine-chrome-extension-now-available/

ホワイトハウス、オバマ政権がソーシャルメディア上で発信したコンテンツを独創的にアーカイブするプロジェクトを発表

2017年1月5日、ホワイトハウスは、オバマ政権がソーシャルメディア上で発信したコンテンツを独創的にアーカイブするプロジェクトを発表しました。

これは、2016年10月にホワイトハウスが、オバマ政権のソーシャルメディアのコンテンツを保存・公開することを発表した際に、独創的なアーカイブ・活用の方法を募集していたものです。

次のようなプロジェクトが発表されています。

・ソーシャルメディアのコンテンツをアーカイブするシステムArchiveSocialが、25万件以上のオバマ政権のソーシャルメディアのコンテンツをアーカイブして、日付・プラットフォーム・キーワードで検索可能に。
・デジタルアートを支援する団体Rhizomeが、オバマ政権と関係のあるインターネットカルチャーについてのエッセーを公開
・MIT Media Labなどが、ホワイトハウスがTwitterで最も多く取り上げたトピックは何かについて分析
・GIFファイルの検索エンジンGiphyが、ホワイトハウスが発信したすべてのGIFファイルと、ホワイトハウスのVineのすべてのコンテンツを閲覧することができるページを公開
・オレゴン州の企業Feel Train社が新しいTwitterのボットを生成して、今後8年間、ホワイトハウスのツイートを再びツイート

ページ