ウェブアーカイブ

Internet Archive、収集済のウェブアーカイブからロングテールなオープンアクセス論文を自動的に判別し保存する方法を開発するためのプロジェクトを開始

2018年3月5日、Internet Archive(IA)が、アンドリュー・W・メロン財団からの助成を得て、ロングテールなオープンアクセス(OA)論文の保存を目的としたプロジェクト“Ensuring the Persistent Access of Long Tail Open Access Journal Literature”を開始すると発表しました。

IAや連携機関の収集済ウェブアーカイブから、保存が危ぶまれているロングテールなOA論文を自動的に判別し、適切なメタデータを付与する仕組みを検証するもので、検証にあたっては、(1)ISSN、DOAJ、Unpaywall、CrossRefからOA論文のデータを取得し該当する論文を調べる、(2)ウェブアーカイブからジャーナルに該当するコンテンツを特定したうえで、識別子やメタデータと関連付けて発見可能性を高める、の2つの手法が用いられます。

また検証の成果の活用のため、結果を受けてトレーニングセットを開発し、小規模なウェブアーカイブで試験してその効果を評価するとともに、この取組に必要な経費の算出も行われます。

米・オバマ前大統領任期満了にともなうウェブアーカイブプロジェクト“End of Term 2016 archive”、収集データを公開

2018年2月18日、米国政府印刷局(GPO)が、米・オバマ前大統領任期満了にともなうウェブアーカイブプロジェクト“End of Term 2016 archive”での収集データの公開を発表しています。

同プロジェクトは、GPOのほか、米国議会図書館(LC)、カリフォルニアデジタルライブラリー(CDL)、ノーステキサス大学図書館、Internet Archive、ジョージ・ワシントン大学図書館、スタンフォード大学図書館が連携して行ったものです。

同プロジェクトに対しては、応募を受け付けていた収集を希望するウェブ情報が1万1,400件寄せられたほか、 DataRefugeやEnvironmental Data and Governance Initiative (EDGI)といった研究データの保存に取り組む団体からも10万件以上のウェブ情報や研究データの収集候補が寄せられたと紹介されています。

OCLC Research、ウェブアーカイブの記述メタデータに関する報告書を公開

2018年2月7日、OCLC Researchのウェブアーカイブのメタデータに関するワーキンググループが、記述メタデータの推奨事項についてまとめた報告書を公開しました。

アーカイブされたウェブサイトという特徴にあわせたメタデータ実務の一貫性と効率性の改善のための推奨事項に関するものに加え、ユーザーのニーズに関する文献レビュー、ウェブサイト収集ツールに関するレビューを加えた3本の報告書で構成されています。

作成にあたっては、国際インターネット保存コンソーシアム(IIPC)、米国アーキビスト協会(SAA)のウェブアーカイブ部門、Internet ArchiveのArchive-Itなどの多様な関係団体・グループからの意見を参考にしています。

News(OCLC Research)
https://www.oclc.org/research/news.html
※「Descriptive Metadata for Web Archiving 07 February 2018」とあります。

ウェブアーカイブの保存用ファイルフォーマットWARCに関するISO規格が改訂

2017年8月、ウェブアーカイブの保存用ファイルフォーマットであるWARCに関する国際規格ISO 28500:2009が、ISO 28500:2017として改訂されました。
 
この改訂規格は、国際インターネット保存コンソーシアム(IIPC)で策定されたWARC改訂版が基になっています。
 
ISO 28500:2017  Information and documentation -- WARC file format(International Organization for Standardization)
https://www.iso.org/standard/68004.html
 
The WARC Format 1.1(IIPC)

米国議会図書館(LC)、Twitterの公開ツイートの収集方針を選択収集に変更

2017年12月26日、米国議会図書館(LC)が、2018年1月1日からTwitterの公開ツイートの収集方針を変更し、同館が実施しているウェブサイトのアーカイブと同様、選択収集に変更すると発表しました。

LCでは、2010年にTwitter社から2006年から2010年にかけての全公開ツイートのアーカイブの寄贈を受け、全公開ツイートの収集の継続を発表していました。

今回の変更は、LCが日常的に実施している、環境の変化・コレクションやテーマの多様性・費用対効果・利用状況等に基づく収集方針の再検討の結果に基づくものです。

LCでは、これまで収集したツイート本文は恒久的に保存する、保存されているツイート本文はアクセスに関する課題が費用対効果に優れ持続可能な方法で解決できるまで閲覧制限とする、今後ともツイートの選択的収集のためTwitter社と連携する、としています。

韓国国立中央図書館(NLK)、ウェブアーカイブの収集データを活用した「ウェブトレンドサービス」の提供開始

2017年12月21日、韓国国立中央図書館(NLK)が、同館のウェブアーカイブ“OASIS”での収集データを活用した「ウェブトレンドサービス」の提供開始を発表しています。

収集したウェブ情報37万件に含まれる「単語」の2012年以降の出現率の変化から時代のトレンドを探ることができるサービスです。

キーワードによる検索のほか、5つのキーワード検索の結果のグラフを同時に比較できる機能もあります。また、公共データや利用者が持つデータも含めて分析するためのデータのアップロード機能も備えています。

検索例として、2013年4月時点では「ブログ」の出現率が2位以下を大きく引き離して1位だったものの、2017年時点では「Facebook」と「ブログ」が同程度になったことなどが紹介されています。

E1984 - ボーンデジタル資料の法定納本政策や実務に関する調査

国際図書館連盟(IFLA),国際インターネット保存コンソーシアム(IIPC),米・ミズーリ大学ドナルド・W・レイノルズ・ジャーナリズム研究所(RJI)及び同大学図書館からなる研究グループが,2017年7月中旬から8月末にかけて,各国のボーンデジタル資料の納本政策や実務に関する調査を行なった。そして,独・ザクセン州立図書館兼ドレスデン工科大学図書館で開催された,第83回IFLA年次大会(E1974参照)のニュースメディア分科会のサテライトミーティングにおいて,調査実施にあたっての調査の最適化のための取組や,欧米を中心とした18か国19館が回答した段階での中間集計の結果を報告している。本稿では,当日の予稿からその内容を紹介する。

英国図書館(BL)、ウェブアーカイブ“UK Web Archive”の新しいインターフェイスのベータ版を公開

2017年12月5日、英国図書館(BL)が、同館のウェブアーカイブ“UK Web Archive”の新しいユーザーインターフェイスのベータ版を公開したと発表しています。

“Open UK Web Archive”(2005年に収集を開始。約1万5,000件のウェブサイトが閲覧可能)と“Legal Deposit Web Archive”(2013年に収集を開始。数百万のウェブサイトを含む。英国の納本図書館内でのみ閲覧可能)搭載コンテンツの一括検索への対応、ファセット機能の追加など検索機能の改善、デザインのシンプル化、特定のテーマやイベントに関するウェブサイトを集めた“Special Collections”ページの公開などが実施されています。

あわせてベータ版への意見を募集しています。

米国議会図書館、連邦裁判所ウェブアーカイブの新しい閲覧用ページを公開

2017年12月4日、米国議会図書館(LC)が、同館のウェブアーカイブチームと法律図書館が2017年9月に公開した連邦裁判所関連のウェブアーカイブ“Federal Courts Web Archive”の新しい閲覧用ページの公開を発表しています。

画面上部の表内に掲載された裁判所をクリックすると選んだ裁判所のウェブアーカイブへのリンクを紹介するほか、州や準州など地域から選択できる米国の地図やドロップダウンリストが用意されています。

New Way to Browse the Federal Courts Web Archive(LC,2017/12/4)
https://blogs.loc.gov/law/2017/12/new-way-to-browse-the-federal-courts-web-archive/

スコットランド国立公文書館、ウェブアーカイブ“National Records of Scotland web archive”を公開

2017年11月20日、スコットランド国立公文書館(NRS) が、ウェブアーカイブ“National Records of Scotland web archive”を公開したと発表しています。

収集対象は、政府機関・裁判所や公開審問(public inquiry)、NRSに記録を移管している公的機関や民間団体です。

NRSがInternet Memory Research社と共同で実施しているものでパブリックドメインの情報を把握し、通常は、機密情報や知的財産について適切に処理するために、ウェブ情報の公開者と合意した後、収集を行なっています。

Web archive launched(NRS,2017/11/20)
https://www.nrscotland.gov.uk/news/2017/web-archive-launched

ページ