E1223 - グローバル化が進むWorldCatの品質維持に対するOCLCの取組み

カレントアウェアネス-E

No.202 2011.10.13

 

 E1223

グローバル化が進むWorldCatの品質維持に対するOCLCの取組み

 

 OCLCが2011年9月に,総合目録WorldCat(CA1721参照)の品質に関するレポート“WorldCat Quality”を発表した。執筆者の1人は「カルホーン・レポート」(CA1617参照)等で知られる,WorldCat・メタデータ担当副会長のカルホーン(Karen Calhoun)氏である。レポートでは,グローバル化が進むWorldCatの現状,重複書誌レコードを中心とする品質問題,その原因分析と対応策についてまとめられている。

 WorldCatの書誌レコード数は順調に増加を続けている。1998年に約3,900万件だったレコード数は,2008年には約1億件,2010年には約1.7億件になっている。2008年以降に急増した理由の1つは,北米外の国立図書館や総合目録からインポートしたレコードにあるという。実際,1998年には英語資料の割合は64%だったが,2010年には43%に低下し,非英語資料のほうが多くなっていると述べられている。その他,ベンダー作成のレコード(全体の1.59%)の受入や,2009年に参加館の目録担当者に対してWorldCatのマスターレコードの編集権限を与えたこと等も,品質に影響を与えた理由として挙げられている。

 その結果,書誌レコードの重複を検出・調整(Duplicate Detection and Resolution:DDR)するソフトウェアが対応しきれなくなってきているという。WorldCatでは1991年に図書書誌レコードに対してDDRソフトウェアが導入され,2005年には逐次刊行物や電子資料等に対しても適用が始まり,2010年には毎日実行されるようになった。2011年4月末の時点で重複調整によって累計750万件以上のレコードが削除されているが,それでも問題解決には不十分だとされている。

 状況をより複雑にしているのは,2003年に方針の変更によって存在が認められたパラレルレコード(同じ資料に対して異なる言語で作成された書誌)や,電子化によって紙媒体とは別に作成される電子媒体の書誌等があるという。このように書誌レコードが複数に分離してしまうと,一か所にまとめられるべき所蔵レコードや,タグ・レビューなどのソーシャルデータが泣き別れになってしまうという問題が発生したり,図書館間貸出(ILL)サービスや資料数の正確な把握においても悪影響があるとしている。

 OCLCでは品質向上に対して様々な取組みを行っているが,レポートではその1つである“GLIMIR”(Global Library Manifestation Identifier)について大きく取り上げている。これは2009年に始まったプロジェクトで,パラレルレコードや異媒体書誌等の複数のレコードを1つのクラスタ(グループ)にまとめ,そこにIDを付与するというものであるという。WorldCatでは,FRBR化への取組みとして,同一の「著作」(Work)に関連づけられる書誌レコードをクラスタリングするFRBR Work-Setアルゴリズム(CA1665参照)が導入されているが,GLIMIRはこのWork-Setより細かいレベルでクラスタリングを行うようである。2012年度の前半にはWorldCat LocalとWorldCat.orgにGLIMIRが導入され,後半には目録作成システムConnexionにも取り入れられる予定とのことである。

 レポートの最終節では,OCLCの図書館間協力事業が多言語・グローバル化している現状に合わせて,メタデータ作成やデータ品質管理においてこれまで長期間成功を収めてきたが英語中心であったアプローチを見なおす必要があるだろうと指摘されている。

Ref:
http://www.oclc.org/reports/worldcatquality/214660usb_WorldCat_Quality.pdf
CA1617
CA1665
CA1721