米国議会図書館(LC)によるウェブアーカイブからデータセットを作成する取組:ウェブアーカイブの利用促進が目的

米国議会図書館(LC)が、2019年10月30日付けのデジタル情報の保存に関するブログ“The Signal”で、LCのデジタルコンテンツ管理部門が実施している、ウェブアーカイブ内からファイルを抽出し、データセットを作成する取組を紹介しています。

ウェブアーカイブがより利用されるようにするための取組の一つで、その成果として、.govドメインから抽出された、表形式、PDF、オーディオといった関連のメディアタイプごとのデータセットが作成・公開されています。各データセットには1,000ファイル含まれています。

データセットは今後も追加する予定で、追加した場合“The Signal”で紹介するとともに、LC Labsで公開されます。

In the Library’s Web Archives: Dig If You Will the Pictures(LC The Signal, 2019/10/30)
https://blogs.loc.gov/thesignal/2019/10/in-the-librarys-web-archives-dig-if-you-will-the-pictures/

Web Archive Datasets(LC Labs)
https://labs.loc.gov/experiments/webarchive-datasets/

参考:
米国議会図書館、コレクションの創造的な活用を目的とした“labs.loc.gov”を公開
Posted 2017年9月20日
https://current.ndl.go.jp/node/34686

CA1893 - ウェブアーカイブの利活用に向けた動き―世界の潮流とWARPの取組― / 前田直俊
カレントアウェアネス No.331 2017年3月20日
https://current.ndl.go.jp/ca1893