E2814 – 2025年IIPC総会・ウェブアーカイビング会議<報告>

カレントアウェアネス-E

No.506 2025.07.31

 

 E2814

2025年IIPC総会・ウェブアーカイビング会議<報告>

国立国会図書館関西館電子図書館課・伊藤響(いとうひびき)

 

  国際インターネット保存コンソーシアム(IIPC;CA1893参照)の総会及びウェブアーカイビング会議(WAC;E2724ほか参照)が、2025年4月8日から10日まで、ノルウェーのオスロにあるノルウェー国立図書館で開催された。国立国会図書館(NDL)からは筆者が参加した。本稿では、参加した会合の内容を報告する。

  8日に開催された総会では、運営委員会から、2026年から2031年を期間とするIIPC協定と戦略計画の概要について報告された。ウェブアーカイビングツールの開発・維持管理に関しては、加盟機関からIIPCへの期待が寄せられたことを受け、新協定の目標の1つとして盛り込まれることとなった。これらの文書は、2026年1月から施行予定である。

  9日と10日に開催されたWACでは、約30の発表やパネル、ワークショップが開催された。以下では、筆者が参加したセッション等における発表内容を抜粋して紹介する。

  アドボカシー活動とユーザーエンゲージメントのセッションでは、スロベニアのコンピュータ歴史博物館から、デジタル保存と個人の「忘れられる権利」の尊重のバランスについて問題提起があり、AI時代に適した新たな倫理的枠組みの必要性が述べられた。また、Internet Archiveからは、ウェブサイトが多数消失しているという複数の報道や研究成果を踏まえて(E2747参照)、リンク切れしていたURL群のWayback Machine上における残存率の調査結果について発表があった。消失したとされるウェブサイトのうち、一定数はアーカイブ済みであった。

  SNS収集のセッションでは、オランダ国立公文書館からSNSアーカイブガイドラインの策定プロセスとその概要について、シンガポール国立図書館からはSNS収集に関する戦略について(E2798参照)、またルクセンブルク国立図書館と英国図書館からは、それぞれ選挙時におけるSNSの収集について報告があった。各国における収集手段は多様であり、外部事業者によるハーベスト、権利者自身による出力・納入、動的なウェブサイトの収集に長けたクローラーBrowsertrixの使用といった手法が取られていた。関連して、ライトニングトークセッションでは、SNSを含むウェブアーカイブサービスを提供するArkiwera wcrify社から、SNSプラットフォーマーがアーカイブ促進に向けた支援に消極的であり、さらにSNSの仕様が収集・保存に必ずしも適したものではない点に困難を感じていると報告があった。

  研究とアクセスのセッションでは、英国のシェフィールド大学図書館から、研究データとして機関リポジトリに登録されたURLについて、リンク先のウェブサイトのスナップショットを取得・保存する取組の発表があった。同大学の機関リポジトリには外部ウェブサイトへのリンクのみで構成された登録データが一部存在しており、それらの長期的なアクセス保障が困難であるという問題が背景にある。また、英国国立公文書館からは、生成AIを利用してウェブアーカイブの発見可能性とアクセシビリティを向上させる取組について発表があった。英国政府のウェブアーカイブのデータを対象として、WARC-GPTとGraphRAGという2つのオープンソースのRAG(検索拡張生成)ツールの精度に関する検証がなされた。その結果、この2つのツールでは、単一のファイル内の情報を抽出する能力、複数のファイルの情報を要約する能力、生成の速度、コスト等の観点で異なる適性が見られた。

  開会基調講演及び閉会基調講演では、生成AIに関連する話題が続いた。開会基調講演では、ノルウェー政府の要請により発足した“Mímir Project”に参加しているノルウェー国立図書館から、著作権保護期間内のコンテンツが大規模言語モデル(LLM)の学習に与える影響について報告があった。それらのコンテンツは概して性能向上に寄与すると結論付けられた。

  閉会基調講演では、幅広い分野においてデータに基づく調査研究を専門とする非営利協同組合であるAnalysis & Numbersから、同組合がSNSから収集したデータと、AI及びカスタマイズ済みのアルゴリズムを組み合わせることで、複雑化したSNS上の言論を定量化する研究について発表があった。特に、民主的な政治選挙を維持する観点において、有権者がオンライン上の対立がどこで起き、どのように展開しているかを理解することの重要性が指摘された。

  前回会議に続き、今年のWACでもAI技術に関する発表が複数行われ、関心の高さがうかがわれた。生成AIがウェブアーカイブ利活用の幅を広げ、ウェブアーカイブが生成AIの質向上に寄与する互恵的な関係が構築されつつある点は注目に値する。同時に、それに伴う新たな課題に対し、各機関が試行錯誤して解決に向けて取り組んでおり、引き続き動向を注視する必要性を感じた。

  WACでなされた発表の一部はYouTubeのIIPC公式チャンネルで公開されている。次回のIIPC総会及びWACは、2026年4月にベルギー・ブリュッセルで開催予定である。

Ref:
“General Assembly and Web Archiving Conference 2025”. IIPC.
https://netpreserve.org/ga2025/
Zittrain, Jonathan L. “The Internet Is Rotting”. The Atlantic. 2021-06-30.
https://www.theatlantic.com/technology/archive/2021/06/the-internet-is-a-collective-hallucination/619320/
“IIPC”. YouTube.
https://www.youtube.com/channel/UCkUsw2Lo1ahekgy_xEb11BA
安藤一博. 2024年IIPC総会・ウェブアーカイビング会議<報告>. カレントアウェアネス-E. 2024, (485), E2724.
https://current.ndl.go.jp/e2724
志村努. 消失するインターネット上のコンテンツに関する調査(米国). カレントアウェアネス-E. 2024, (490), E2747.
https://current.ndl.go.jp/e2747
木下雅弘. シンガポール国立図書館によるSNS投稿収集の取組. カレントアウェアネス-E. 2025, (503), E2798.
https://current.ndl.go.jp/e2798
前田直俊. ウェブアーカイブの利活用に向けた動き-世界の潮流とWARPの取組-. カレントアウェアネス. 2017, (331), CA1893, p. 9-13.
http://doi.org/10.11501/10317594