E610 – ウェブ上に公開される政府刊行物のハーベスティング(米国)

カレントアウェアネス-E

No.101 2007.02.28

 

 E610

ウェブ上に公開される政府刊行物のハーベスティング(米国)

 

 米国政府印刷局(GPO)が,政府刊行物の網羅的収集の自動化を進めている。

 GPOは,連邦政府刊行物寄託図書館制度(FDLP)により政府刊行物の電子コレクション(EC; Electronic Collection)の構築を進めている。このFDLP ECの構築にあたっては,非デジタルの有形出版物をデジタル化して蓄積するアーカイブと,ウェブ上にデジタル形態で公開されている“ボーン・デジタル資料”を収集して蓄積するアーカイブとの両面から網羅性を追求している。(CA1548CA1569参照)

 このうちボーン・デジタル資料の収集については,これまで人手による収集を行っていたが,作業の効率化を図るため自動的なハーベスティングも模索し,パイロットプロジェクトを行っていた。GPOは2007年2月,『ウェブ・ハーベスティング白書』と題する報告書を公開し,プロジェクトの成果を明らかにした。

 プロジェクトでは,環境保護局(EPA)(E609参照)の膨大なウェブサイト及びデータベースを対象に,刊行物を機械的に収集する実験が行われた。ベンダー2社の協力を得て,6か月間に3度のクローリング(収集ロボットによる探査)を行い,各クローリングごとに,発見・収集されたものがGPOの配布プログラムに合致する刊行物であるか評価し,クローリング方法の修正を重ねた。

 その結果,最終的に2社の収集の精度について,ロボットが刊行物とした資料のうち約85%が実際に刊行物であり,またロボットが刊行物としなかった資料のうち約70%が実際刊行物ではないという結果であった。2社はハーベスティングにあたり技術・方法論とも異なるアプローチを採用しており,GPOはそれを比較することで次に解決すべき課題を分析している。具体的には,今後はこの調査結果の分析をさらに進めより精度の高いルール・指示を考案するととしている。さらにそれを踏まえて最適な業務フローや収集された刊行物の目録作成を行っていくとしている。

 現状の精度では,機械的にハーベスティングされた資料を完全な刊行物となるようにグルーピングする作業や,人手による点検と目録・分類作業のボリュームが大きくなってしまうため,更なる自動化が求められよう。新システムのリリース予定を2008年と定め,GPOは次の一歩を踏み出している。

Ref:
http://www.access.gpo.gov/su_docs/fdlp/harvesting/index.html
E609
CA1548
CA1569