E2845 – 世界の国立図書館のウェブアーカイブ事業:2025年調査

カレントアウェアネス-E

No.514 2025.12.04

 

 E2845

世界の国立図書館のウェブアーカイブ事業:2025年調査

国立国会図書館関西館電子図書館課・久常香織(ひさつねかおり)、松田恵里(まつだえり)、田中福太郎(たなかふくたろう)
国立国会図書館関西館アジア情報課・木下雅弘(きのしたまさひろ)

 

  国立国会図書館(NDL)は、インターネット資料収集保存事業(WARP;CA1893参照)により、2002年から日本国内の公的機関のウェブサイトを中心に保存している。WARPのこれからの在り方の検討に資するため、NDLでは8か国の国立図書館(米国議会図書館(LC)、英国図書館(BL)、ドイツ国立図書館(DNB)、フランス国立図書館(BnF)、オーストラリア国立図書館(NLA)、中国国家図書館、韓国国立中央図書館、シンガポール国立図書館)のウェブアーカイブ事業について2025年6月から9月にかけて調査した。調査はインターネット上等で公開された情報に基づき実施した。主な調査項目は、収集対象、公開範囲、全文検索機能の有無、有償コンテンツ等の扱い、SNS収集への対応、他機関との協力状況である。本稿では調査の概要と、参考として、WARPの現状を紹介する。

●収集対象

  今回の調査では、ドメイン名に基づき国内のウェブサイトを包括的に収集することを「バルク収集」と定義し、その実施の有無を確認した。8か国中、米国と中国以外の6か国の国立図書館で、何らかの形でバルク収集が行われていた。各国のトップレベルドメイン(「.uk」「.au」「.kr」「.sg」等)に基づき、年1回程度のバルク収集を行いつつ、選挙、災害、オリンピックのような特定のテーマやイベントについては頻度を上げて収集するパターンが多い。一方、WARPは、国立国会図書館法に基づき、公的機関のウェブサイトを包括的に収集し、民間のウェブサイトは許諾に基づき選択的に収集している。

●公開範囲

  オーストラリアのみ原則インターネット公開をしていた。米国、英国、ドイツ、韓国、シンガポールは、原則館内提供としつつ、サイト所有者の許諾がある場合にインターネット公開としている。WARPも、サイト所有者の許諾に基づきインターネット公開を行っている。フランスは研究者の館内閲覧のみ認められ、中国は一部を除き原則非公開である。なお、米国のデータの提供は収集から1年経過後となっている。

●全文検索機能の有無

  オーストラリア、韓国、シンガポールは、全文検索を可能にしている。英国、フランス、中国は、一部の資料のみ全文検索ができる。ドイツは館内限定で可能にしている。米国は、全文検索サービスを提供していない。なお、WARPでは全文検索が可能である(ただし、検索の対象となる文字数には上限がある)。

●有償コンテンツ等 (電子書籍・電子雑誌等)の扱い

  ほぼ全ての国で、電子書籍、電子雑誌を収集対象としている。音楽、映像、電子新聞等をも収集している国もある。収集方法は、ロボットによるクローリングではなく、オンライン納本システムやファイル送信等による。NDLでは、2013年から、オンライン資料収集制度(国立国会図書館法第25条の4)に基づき、民間の図書又は逐次刊行物に相当するもの(電子書籍・電子雑誌)を制度収集している(CA2051参照)。

●SNS収集への対応

  包括的にSNSプラットフォーム上のコンテンツを収集しているという国は調査時点ではほとんど存在しなかった。ただし、中国は、インターネット関連業務に携わる国内大手企業の新浪公司と協力し、同社運営のSNS「微博」(Weibo)の投稿を収集・保存するプロジェクトを進めている。また、米国は2006年から2017年の間はTwitter社(現X社)からの提供によりツイートを全て収集していた。WARPはSNSの収集は行っていない。

●他機関との協力状況

  他機関等と協力・補完関係にある館がいくつかあった。例えばドイツでは、州レベルでウェブサイトのアーカイブが行われている。オーストラリアでは、NLAが中心となり、ウェブアーカイブのプロジェクトPANDORA(CA1537参照)を立ち上げた。国内の10機関がパートナーとして収集を担い、収集されたコンテンツはNLAが管理している。一方、米国には世界中のウェブ情報を収集しているInternet Archive(IA)があり、LCでは、テーマに沿った収集をIA等の団体と共同で行っている。WARPは、現在のところ他機関との協力の予定はない。

  今回の調査から、自国のウェブサイトを何らかの形でバルク収集している国立図書館が多いことが分かった。ただし、公開範囲や提供方法には何らかの制約があることが多いことも明らかになった。ウェブアーカイブを担う各国の公文書館の取組も含め、今後の動向を引き続き調査したい。

Ref:
第40回納本制度審議会 配布資料. 国立国会図書館, 2025, p. 13-18.
https://www.ndl.go.jp/jp/collect/deposit/council/40noushin_shiryo.pdf
国立国会図書館インターネット資料収集保存事業.
https://warp.ndl.go.jp/
“Web Archives”. Library of Congress.
https://www.loc.gov/web-archives/
UK Web Archive.
https://www.webarchive.org.uk/
Webarchiv der Deutschen Nationalbibliothek.
https://webarchiv.dnb.de/index.aspx
“Archived Websites”. Trove.
https://webarchive.nla.gov.au/collection
中国政府公开信息整合服务平台.
http://govinfo.nlc.cn/
국립중앙도서관 웹자원 아카이브 (OASIS).
https://www.nl.go.kr/oasis/
WebArchiveSG.
https://eresources.nlb.gov.sg/webarchives/landing-page
LIBRARY OF CONGRESS COLLECTIONS POLICY STATEMENTS SUPPLEMENTARY GUIDELINES. Library of Congress, p. 4.
https://www.loc.gov/acq/devpol/webarchive.pdf
“Legal deposit and web archiving”. British Library.
https://www.bl.uk/legal-deposit-web-archiving/
Steinke, Tobias. Das deutsche Internet archivieren? Zwischen selektivem Ansatz und .de-Domain-Crawl. DNB, 2014, 13p.
https://files.dnb.de/nestor/veranstaltungen/Praktikertag2014/steinke-DNB-Webarchivierung.pdf
GUIDE DES ARCHIVES DE L’INTERNET. Bibliothèque Nationale de France, 2025.
https://www.bnf.fr/sites/default/files/2025-02/Guide_Archives_internet_BnF.pdf
“Archived websites”. National Library of Australia.
https://www.library.gov.au/discover/what-we-collect/australian-web-archive
赵丹阳. 国家图书馆网络资源采集与保存平台的技术实现. 数字图书馆论坛. 2020, (09), p. 42.
https://chn.oversea.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2020&filename=SZTG202009007
“국립중앙도서관 온라인 자료 납본・수집 지침”. 국립중앙도서관. 2022-07-11.
https://oak.go.kr/nl-ir/handle/2020.oak/739
“FREQUENTLY ASKED QUESTIONS”. WebArchiveSG.
https://eresources.nlb.gov.sg/webarchives/faq
Haupt Fugate, Tracee. “The Web Archiving Team Answers Questions About the Web Archives”. Library of Congress. 2023-08-30.
https://blogs.loc.gov/thesignal/2023/08/the-web-archiving-team-answers-questions-about-the-web-archives/
Fischbach, Allison. “Domain Archiving Experience at the National Library, Singapore”. Society of American Archivists Web Archiving Section. 2023-02-15.
https://webarchivingrt.wordpress.com/2023/02/15/domain-archiving-experience-at-the-national-library-singapore/
“互联网信息资源保存和保护”. 中国国家图书馆.
https://www.nlc.cn/web/yejiefuwu/newtsgj/NLCNetInfoResourcePreservationProtection/index.html
“Consult “Archives de l’internet””. Bibliothèque Nationale de France.
https://www.bnf.fr/en/consult-archives-de-linternet
“For Researchers”. Library of Congress.
https://www.loc.gov/programs/web-archiving/for-researchers/
Steinke, Tobias. Selective Web Archiving at the German National Library. IFLA News Media Section, 2016, 5p.
https://blogs.sub.uni-hamburg.de/ifla-newsmedia/wp-content/uploads/2016/04/Steinke-Selective-Web-Archiving-at-the-German-National-Library.pdf
“Electronic Copyright Office (eCO)”. United States Copyright Office.
https://eservice.eco.loc.gov/siebel/app/eservice/enu?SWECmd=Start
“Submission Guidelines”. United States Copyright Office.
https://www.copyright.gov/cad/faq-guidelines.html
“Legal deposit”. British Library.
https://www.bl.uk/more/legal-deposit/
Diebel, Cornelia. Sammlung von Online-Publikationen an der Deutschen Nationalbibliothek (DNB). Deutsche National Bibliothek, 2019, p. 4, 6, 13.
https://www.vda.archiv.net/fileadmin/user_upload/05_VdA_FG6_Diebel_Online-Publikationen-DNB.pdf
“De nouveaux circuits de dépôt pour les documents numériques dématérialisés”. Bibliothèque Nationale de France.
https://www.bnf.fr/fr/le-depot-legal-numerique#bnf-de-nouveaux-circuits-de-d-p-t-pour-les-documents-num-riques-d-mat-rialis-s
“Getting started”. NED Resources.
https://ned.gov.au/resources/getting-started.html
국립중앙도서관ISBN・ISSN・UCI・납본.
https://www.nl.go.kr/seoji/
“Deposit Portal: Frequently Asked Questions”. National Library Board of Singapore.
https://www.nlb.gov.sg/depositapp/faq
Update on the Twitter Archive at the Library of Congress. Library of Congress, 2017, 2p.
https://blogs.loc.gov/loc/files/2017/12/2017dec_twitter_white-paper.pdf
“Discover the BnF’s web archive collections”. Bibliothèque Nationale de France.
https://www.bnf.fr/en/discover-bnfs-web-archive-collections
“Collection development policy”. National Library of Australia.
https://www.library.gov.au/visit/about-us/corporate-information/collection-policies-and-plans/collection-development-policy
“国家图书馆互联网信息战略保存项目启动 首家基地落户新浪”. 新華網. 2019-04-22.
http://www.xinhuanet.com/politics/2019-04/22/c_1124399654.htm
“Das Webarchiv der DNB”. Deutsche National Bibliothek. 2023-10-19.
https://blog.dnb.de/das-webarchiv-der-dnb/
“PANDORA partners”. PANDORA Australia’s Web Archive.
https://pandora.nla.gov.au/partners.html
End of Term Web Archive.
https://eotarchive.org/
渡部淳. 米国で電子書籍の法定納本が開始される. カレントアウェアネス-E. 2021, (411), E2374.
https://current.ndl.go.jp/e2374
大沼太兵衛. オンライン資料の納本制度の現在(1)フランス. カレントアウェアネス-E. 2014, (272), E1634.
https://current.ndl.go.jp/e1634
藤原夏人. オンライン資料の納本制度の現在(4)韓国. カレントアウェアネス-E. 2016, (310), E1836.
https://current.ndl.go.jp/e1836
伊勢田梨名. オンライン資料の納本制度の現在(5)シンガポール. カレントアウェアネス-E. 2018, (355), E2062.
https://current.ndl.go.jp/e2062
木下雅弘. シンガポール国立図書館によるSNS投稿収集の取組. カレントアウェアネス-E. 2025, (503), E2798.
https://current.ndl.go.jp/e2798
五十嵐麻理世. オセアニアのウェブ・アーカイビング. カレントアウェアネス. 2004, (281), CA1537, p. 18-20.
https://current.ndl.go.jp/ca1537
前田直俊. ウェブアーカイブの利活用に向けた動き-世界の潮流とWARPの取組-. カレントアウェアネス. 2017, (331), CA1893, p. 9-13.
https://current.ndl.go.jp/ca1893
原聡子. オンライン資料収集制度(eデポ)の10年のあゆみとこれから. カレントアウェアネス. 2023, (358), CA2051, p. 2-4.
https://current.ndl.go.jp/ca2051