E2724 – 2024年IIPC総会・ウェブアーカイビング会議<報告>

カレントアウェアネス-E

No.485 2024.08.08

 

 E2724

2024年IIPC総会・ウェブアーカイビング会議<報告>

関西館電子図書館課・安藤一博(あんどうかずひろ)

 

  国際インターネット保存コンソーシアム(IIPC;CA1893参照)の総会及びウェブアーカイビング会議(WAC;E2615ほか参照)が、2024年4月24日から26日まで、フランスのパリにあるフランス国立図書館(BnF)で開催された。国立国会図書館(NDL)からは筆者が参加した。

  24日午前に開催された総会では、運営委員会から、現行の戦略計画の後継計画として2026年から2031年を計画期間とするIIPCの戦略計画の策定を予定していることが報告された。

  24日の午後から26日にかけてWACが開催され、ウェブアーカイブのためのツール、ウェブコンテンツのコレクション構築、品質保証等の様々なテーマで約30の発表やパネル、ワークショップが開催された。筆者は技術者向けのセッションを中心に参加した。以下では、WACの各セッション等でなされた発表を、収集、研究利用、生成AIのトピックに集約して紹介する。

●収集

  オープンソースプロジェクトWebrecorderが開発したクローラBrowsertrixのワークショップを開発者チームが主催し、参加者が実際に収集を試す機会を提供した。Browsertrixは、ウェブアーカイブ機関で広く採用されているクローラHeritrixでは収集できない動的なウェブサイトをより忠実に収集できるクローラで、2024年3月にver.1.0が公開されている。WACでは、他の機関の発表者からも、ストリーミングサイトやウェブアプリのフロントエンド部分、論文で参照された文献の収集等の事例報告の中でBrowsertrixを用いたことが報告されている。Browsertrixが動的なウェブサイトを高い再現度で収集できることについては評価として定着しており、議論の焦点が動的なウェブサイトの収集時の技術的な課題から、収集後の再現性確認作業の省力化・自動化等に移っているように感じた。一方で、Heritrixと比較した場合、Browsertrixは収集する速度についてはまだ評価が定まっていないという意見もセッションの中でなされていた。Browsertrixを導入した機関においても、当面はHeritrixとBrowsertrixを併用し、相互補完的に使われていくだろうと思われる。

  その他、収集については、デンマーク王立図書館、フィンランド国立図書館等の実務担当者によるペイウォールの背後にあるウェブコンテンツを収集するための権利者との交渉、収集ツール及び運用のノウハウ等の紹介、米・ニューヨーク大学図書館のボス(Katherine Boss)氏らによるGoogleマップ等のウェブアプリのBrowsertrixとReprozip-Webを組み合わせた収集の取組などが各セッションで報告された。

●研究利用

  参照先の保存と被参照の両面から各機関の発表がなされた。

  収集した電子論文の参照文献がウェブ上に存在する場合、参照文献の永続的なアクセスを担保するため、論文内のURLを抽出してリンク先のコンテンツを収集し参考文献ごと保存する取組についての発表をポルトガルのArquivo.ptや米・ノーステキサス大学がそれぞれ行った。

  また、デンマーク王立図書館のニーヴァン(Caroline Nyvang)氏らは、ウェブアーカイブを論文等で参照する際に用いることを想定したウェブアーカイブ用の永続的識別子としてInternet Assigned Numbers Authority(IANA)に2022年に登録されたURNであるPersistent Web IDentifier(PWID)を紹介した。特定の技術に依存しない、人間が判読できる形式であることが特徴であるが、コンテンツへのアクセスを担保するためには、DOIのようなレジストリの構築が課題となっており、関係者の議論を呼びかけた。

●生成AI

  「ツール」セッションの中で米・ハーバード大学のLibrary Innovation Labのカルグネルッティ(Matteo Cargnelutti)氏は、同機関が開発したWARC-GPTを紹介した。まだ実験段階ではあるが、WARC-GPTは、OllamaやChatGPTのAPIを用いてWARCファイルを生成AIに学習させてウェブアーカイブコンテンツの探索行動を支援するツールである。また、米・スタンフォード大学のチャン(Peter Chan)氏がドロップイントークとして、政府報告書のPDFファイル100件に対して、人間が作成したメタデータとChatGPTで生成したそれを比較検証した結果を報告した。タイトル、出版日、著者、出版者、概要説明は、7割から9割は、手動で作成したメタデータと同等もしくはChatGPTが作成したほうがよいという結果が得られたが、一方で米国議会図書館(LC)件名標目表(LCSH)を適切に付与させるには課題があるとのことであった。

  WACでなされた発表の一部はYouTubeのIIPC公式チャンネルで公開されている。次回のIIPC総会及びWACは、2025年4月にノルウェー・オスロで開催される予定である。

Ref:
“General Assembly and Web Archiving Conference 2024”. IIPC.
https://netpreserve.org/ga2024/
“@iipc8855”. YouTube.
https://www.youtube.com/channel/UCkUsw2Lo1ahekgy_xEb11BA
前田直俊. ウェブアーカイブの利活用に向けた動き―世界の潮流とWARPの取組―. カレントアウェアネス. 2017, (331), CA1893, p. 9-13.
https://doi.org/10.11501/10317594
志村努. 2023年IIPC総会・ウェブアーカイブ会議<報告>. カレントアウェアネス-E. 2023, (460), E2615.
https://current.ndl.go.jp/e2615