予想以上に困難だったメタデータ自動収集

全米科学財団(NSF)電子図書館プロジェクト(National Science Digital Library: NSDL)のため、メタデータをDublin CoreとOAI-PMHを用いて収集(ハーベスト)する実験を3年間行ってきたコーネル大学のチームが、その結果を報告する論文を発表しています。
この論文の中では、高度な技術を用いているわけではないので簡単だと予想していたが、やってみたら予想以上にエラーが多かったと述べられています。実際に収集した2年間で、収集に成功したのは、収集を試みた全体の64%だったとのことです。失敗の原因としては、OAIプロトコルの問題、XMLの書式や文字コードの問題、ネットワークの問題などが多かったようです。

Metadata aggregation and “automated digital libraries”: A retrospective on the NSDL experience
http://arxiv.org/abs/cs/0601125
Wednesday, June 21, 2006付けCatalogablogの記事
http://catalogablog.blogspot.com/2006/06/metadata-aggregation.html

参考:
CA1513 (No.278) – 動向レビュー:OAI-PMHをめぐる動向 / 尾城孝一
http://www.dap.ndl.go.jp/ca/modules/ca/item.php?itemid=944