ワシントン大学、ボストン大学等の共同プロジェクト“GovScape”、ウェブアーカイブ内のPDFを対象とした検索システムを提供開始

2025年11月19日、米・ワシントン大学、ボストン大学等の共同プロジェクト“GovScape”が、ウェブアーカイブ内のPDFを対象とした検索システムの提供開始を発表しました。

現時点の検索対象は、米大統領任期終了時の政府のウェブサイト(.gov、.milなど)を収集したウェブアーカイブ“End of Term Web Archive”の2020年収集データに含まれるPDFファイル約1千万件(約7千万ページ)です。

GovScapeの検索システムは、次の3種類の検索方式をサポートしています。

・キーワード検索:従来型の検索方式
・セマンティック検索:ベクトルインデックスを用いた最近傍探索
・ビジュアル検索:「(墨塗などの)編集済文書」「円グラフ」「航空写真」などのクエリによる検索

開発の背景として、ウェブアーカイブは、収集に関しては成功しているが、収集データへのアクセスと発見可能性に大きな課題が残っているとしています。

@lee_bcg(X, 2025/11/19)
https://x.com/lee_bcg/status/1990880328970612951
※プロジェクトメンバーであるBen Lee氏の2025年11月19日付けXで、GovSpaceを発表とあります。

GovScape
https://govscape.net/

Kyle Deeds, et al. GovScape: A Public Multimodal Search System for 70 Million Pages of Government PDFs. 2025, arXiv:2511.11010v1.
https://doi.org/10.48550/arXiv.2511.11010

bcglee / govscape(GitHub)
https://github.com/bcglee/govscape/
※オープンソースのコードが公開されています。

関連:
Background(End of Term Web Archive)
https://eotarchive.org/about/

参考:
ウェブアーカイブプロジェクト“End of Term Presidential Harvest 2020”、米・トランプ大統領任期満了に伴って収集を希望する連邦政府機関のウェブ情報の推薦を受付 [2020年09月03日]
https://current.ndl.go.jp/car/41909