ウェブアーカイブ

米国議会図書館(LC)、新たに4,240件のウェブアーカイブを公開:メタデータの自動付与を実施

2018年8月3日、米国議会図書館(LC)が、43のイベントとテーマコレクションからなる4,240件のウェブアーカイブを新たに公開したと発表しています。

今回公開されたものの中には、2002年から現在までのオンラインマガジン『スレート』誌や、スリランカの現職大統領の選挙キャンペーンのウェブサイト等が含まれています。

ウェブアーカイブの規模が拡大したことから、利用可能となるまでの時間を維持するため、ウェブアーカイブの目録作成にあたり、目録担当者の能力とプログラミング言語(Python)を組み合わせた、記述メタデータのスキーマMODSに基づいたレコード(簡略版のMODS)を自動的に生成する手法が用いられています。

More Web Archives, Less Process(LC,2018/8/3)
https://blogs.loc.gov/thesignal/2018/08/more-web-archives-less-process/

国際図書館連盟(IFLA)、ボーンデジタル資料の法定納本政策や実務に関する調査の最終報告書を公表

2018年7月25日、国際図書館連盟(IFLA)が、ボーンデジタル資料の法定納本政策や実務に関する調査の最終報告書“Results of the 2017 Survey of Electronic Legal Deposit Policies and Practices at National Libraries”を公表しました。

Results of the Survey of Digital Legal Deposit Policies and Practices at National Libraries(IFLA,2018/7/25)
https://www.ifla.org/node/61887

シンガポール国家図書館委員会法(NLB Bill)の改正法案が可決:オンライン資料が納本対象に

2018年7月9日、シンガポール国会において、シンガポール国家図書館委員会法(NLB Bill)の改正法案が可決しました。

同日付のThe Straits Times紙によると、今回の改正により、NLBでは、著作権者からの書面による同意なく、電子書籍、オンライン雑誌等、電子的形態のみで出版された同国関連出版物の収集が可能となるとのことです。

また、議員からの質問に対するS.Iswaran情報通信大臣の回答に拠れば、ウェブアーカイブに関しては、収集対象は.sgドメインのウェブサイトに限定し、ソーシャルメディアは対象外であり、シンガポール以外のウェブサイトについては許諾を得て収集すると回答しています。収集頻度は年1回で、時事的問題については例外規定が設けられます。加えて、ウェブアーカイブの実施にあたって、インターネット上の音源や映画映像などの収集の問題を解決するために、著作権法の改正も行なうとしています。

一方、国際的な慣行に従って、NLBでは、パスワードで保護されていたり、購読者限定のコンテンツについては収集しないとのことです。また、著作権法改正により、館内のコンピューターで収集コンテンツの利用が可能となったとしても、利用者がそのようなコンテンツをコピー・配布できないようにすると回答しています。

Internet Archive(IA)・ニューヨークアート資料コンソーシアム(NYARC)、美術関連資料のウェブアーカイブにおける美術図書館の連携を促進する事を目的としたフォーラムを開催

2018年5月15日、Internet Archive(IA)は、インターネット上の歴史的に貴重な美術関連資料のウェブアーカイブにおける美術図書館の連携を促進する事を目的としたフォーラム“Advancing Art Libraries and Curated Web Archives:National Forum”を開催すると発表しています。

博物館・図書館サービス機構(IMLS)の助成を得て、ニューヨークアート資料コンソーシアム(NYARC)と共同で行なうもので、フォーラムの開催に加え、予備調査、ニーズ調査、フォーラム参加者対象のハンズオン(研修)、同活動に関する出版物の作成、今後の連携のためのロードマップの策定といった事業も行なわれます。

Internet Archive、収集済のウェブアーカイブからロングテールなオープンアクセス論文を自動的に判別し保存する方法を開発するためのプロジェクトを開始

2018年3月5日、Internet Archive(IA)が、アンドリュー・W・メロン財団からの助成を得て、ロングテールなオープンアクセス(OA)論文の保存を目的としたプロジェクト“Ensuring the Persistent Access of Long Tail Open Access Journal Literature”を開始すると発表しました。

IAや連携機関の収集済ウェブアーカイブから、保存が危ぶまれているロングテールなOA論文を自動的に判別し、適切なメタデータを付与する仕組みを検証するもので、検証にあたっては、(1)ISSN、DOAJ、Unpaywall、CrossRefからOA論文のデータを取得し該当する論文を調べる、(2)ウェブアーカイブからジャーナルに該当するコンテンツを特定したうえで、識別子やメタデータと関連付けて発見可能性を高める、の2つの手法が用いられます。

また検証の成果の活用のため、結果を受けてトレーニングセットを開発し、小規模なウェブアーカイブで試験してその効果を評価するとともに、この取組に必要な経費の算出も行われます。

米・オバマ前大統領任期満了にともなうウェブアーカイブプロジェクト“End of Term 2016 archive”、収集データを公開

2018年2月18日、米国政府印刷局(GPO)が、米・オバマ前大統領任期満了にともなうウェブアーカイブプロジェクト“End of Term 2016 archive”での収集データの公開を発表しています。

同プロジェクトは、GPOのほか、米国議会図書館(LC)、カリフォルニアデジタルライブラリー(CDL)、ノーステキサス大学図書館、Internet Archive、ジョージ・ワシントン大学図書館、スタンフォード大学図書館が連携して行ったものです。

同プロジェクトに対しては、応募を受け付けていた収集を希望するウェブ情報が1万1,400件寄せられたほか、 DataRefugeやEnvironmental Data and Governance Initiative (EDGI)といった研究データの保存に取り組む団体からも10万件以上のウェブ情報や研究データの収集候補が寄せられたと紹介されています。

OCLC Research、ウェブアーカイブの記述メタデータに関する報告書を公開

2018年2月7日、OCLC Researchのウェブアーカイブのメタデータに関するワーキンググループが、記述メタデータの推奨事項についてまとめた報告書を公開しました。

アーカイブされたウェブサイトという特徴にあわせたメタデータ実務の一貫性と効率性の改善のための推奨事項に関するものに加え、ユーザーのニーズに関する文献レビュー、ウェブサイト収集ツールに関するレビューを加えた3本の報告書で構成されています。

作成にあたっては、国際インターネット保存コンソーシアム(IIPC)、米国アーキビスト協会(SAA)のウェブアーカイブ部門、Internet ArchiveのArchive-Itなどの多様な関係団体・グループからの意見を参考にしています。

News(OCLC Research)
https://www.oclc.org/research/news.html
※「Descriptive Metadata for Web Archiving 07 February 2018」とあります。

ウェブアーカイブの保存用ファイルフォーマットWARCに関するISO規格が改訂

2017年8月、ウェブアーカイブの保存用ファイルフォーマットであるWARCに関する国際規格ISO 28500:2009が、ISO 28500:2017として改訂されました。
 
この改訂規格は、国際インターネット保存コンソーシアム(IIPC)で策定されたWARC改訂版が基になっています。
 
ISO 28500:2017  Information and documentation -- WARC file format(International Organization for Standardization)
https://www.iso.org/standard/68004.html
 
The WARC Format 1.1(IIPC)

米国議会図書館(LC)、Twitterの公開ツイートの収集方針を選択収集に変更

2017年12月26日、米国議会図書館(LC)が、2018年1月1日からTwitterの公開ツイートの収集方針を変更し、同館が実施しているウェブサイトのアーカイブと同様、選択収集に変更すると発表しました。

LCでは、2010年にTwitter社から2006年から2010年にかけての全公開ツイートのアーカイブの寄贈を受け、全公開ツイートの収集の継続を発表していました。

今回の変更は、LCが日常的に実施している、環境の変化・コレクションやテーマの多様性・費用対効果・利用状況等に基づく収集方針の再検討の結果に基づくものです。

LCでは、これまで収集したツイート本文は恒久的に保存する、保存されているツイート本文はアクセスに関する課題が費用対効果に優れ持続可能な方法で解決できるまで閲覧制限とする、今後ともツイートの選択的収集のためTwitter社と連携する、としています。

ページ