米GPO、Internet Archiveの“Archive-It”を用いたウェブ上の政府刊行物のアーカイブを本格実施へ

米国政府印刷局(GPO)が、Internet Archiveのサービス“Archive-It”を利用したウェブアーカイビングを本格化させるようです。その経緯や現状、今後の予定について、同局の担当する連邦政府刊行物寄託図書館制度(FDLP)のニュースレター“FDLP Connection”の3巻1号(2013年3月1日)で紹介しています。

それによると、ウェブ上に存在する連邦政府機関の情報の収集・保存は1996年から行われていたそうです。その後、ウェブサイトは単なるファイル置き場ではなく、フォーマットの多様化やコンテンツの複雑化が進み、その量も増加していきました。GPOは2011年後半には、Archive-Itを用いた収集の実験を開始しました。10のウェブサイトを対象に、クローラによる収集や、MARCレコードの生成(Archive-ItのDublin Coreレコードを変換)を行い、その性能を確認していきました。実験は成功に終わり、今後ウェブアーカイビングチームを立ち上げ、本格的な実施に向けた計画を策定することなどが決定されたということです。

Web Harvesting Pilot Project(FDLP 2013/3/1付け記事)
http://beta.fdlp.gov/all-newsletters/featured-articles/1493-web-harvesting-pilot-project

Harvesting Pilot Team(FDLP)
http://beta.fdlp.gov/index.php?option=com_content&view=article&id=1491:get-to-know-gpo-harvesting-pilot-team-under-monthly-columns&catid=343:gettoknowgpo&Itemid=331

参考:
CA1569 – 動向レビュー:米国政府刊行物アーカイビングの進展 / 村上浩介
http://current.ndl.go.jp/ca1569

E1018 – デジタル時代の政府刊行物の永続提供に向けて(米国)
http://current.ndl.go.jp/e1018

E610 – ウェブ上に公開される政府刊行物のハーベスティング(米国)
http://current.ndl.go.jp/e610

自組織のウェブアーカイブを簡単に行えるサービス“Archive-It”
http://current.ndl.go.jp/node/6565

GPO、LOCKSSを用いた政府刊行物のアーカイビング実験の分析を公表
http://current.ndl.go.jp/node/5947

政府刊行物のハーベスティング方針
http://current.ndl.go.jp/node/2818