CA1248

カレントアウェアネス
No.236　1999.04.20

オンライン総合目録における書誌レコードの同定方法

CURL（Consortium of University Research Libraries）はオックスフォード，ケンブリッジ，ロンドン，エジンバラ，トリニティ・カレッジ（ダブリン）といったイギリスとアイルランドの大学図書館の協力組織で，COPAC（CURL OPAC）はCURLが提供する総合目録データベースである。1999年3月現在で12館のデータを含み，総レコード件数は500万件（内85％以上が図書で，他に雑誌，ビデオ等を含む）である。サービスは無料であり，ウエブによるほか，TelnetおよびZ39.50のインターフェイスによっても提供している。

総合目録であるため，ひとつの資料に対して書誌レコードの重複する可能性が当然ある。しかし，利用者の検索の利便性等を考慮すれば，同一資料に対する書誌レコードの重複は避けなければならない。そのために，重複するレコードを探し出し，統合・整理してデータベースを構築していく仕組みが，テストと調査を重ねた上で開発されてきた。その仕組みは，厳密さと柔軟さとを持ち合わせたものといえる。

重複するレコードの同定方法は，2段階に大きく分かれる。最初の同定の段階（「段階1」と呼ぶ）では，重複の可能性のあるレコードをチェックする。この段階では，あくまで重複は「可能性」にとどまる。次の段階（「段階2」と呼ぶ）で，それら重複の可能性のあるレコードについて，個々のフィールドごとの比較を行い，そこで重複レコードが確定される。

「段階1」では，さらに2通りの方法で同定が行われる。最初の方法は，ISBNないしISSNによる同定（「ISBN/ISSN同定」と呼ぶ）。ここでマッチすれば，重複可能性ありとみなされ，「段階2」へ進む。ISBNもしくはISSNでマッチしない，あるいはそれらを有しないレコードは，第2の方法，すなわち著者・タイトルそれぞれの頭4文字と刊行年との組み合わせによって同定を行う（「頭文字同定」と呼ぶ）。例えば，1995年に刊行されたオースチンの『高慢と偏見』（Pride And Prejudice）であれば，“aust/prid,1995”という具合に。

「段階1」における2通りの方法で，いかなるレコードともマッチしなかったものは，単一レコードとしてデータベースに加わる。マッチしたレコードは，「段階2」へ移る。

「段階2」では，タイトル，著者，版次等フィールドごとの同定を行うが，比較されるフィールドは，「段階1」においてマッチした方法に応じて異なる。「段階1」を「ISBN/ISSN同定」で通過したレコードの方が，「頭文字同定」で通過したレコードより，緩やかに同定される。例えば，後者はページ付けおよび出版社について比較を行うが，前者は行わない。また，前者では一部のフィールドの比較において「得点制」を採用し（例えば，刊行年がマッチすれば3点，著者なら2点といった具合），すべてのフィールドが一致しなくとも，総得点が一定点以上を満たせば，重複レコードとなる。

目録記述上の偏差を考慮し，個々のフィールドの比較においては，柔軟性を持たせている。例えば，著者やタイトルの比較の際，区切り記号等は省かれ，すべてが小文字に変換される。一方，多巻ものの場合には，より複雑な処理がなされる。

こうして，重複であると確定したレコードは，さらに次の，データの統合・整理の過程へ移行する。

重複レコードはそれぞれ群を形成し，各々の群の中で基本書誌レコードが選ばれ，それ以外の書誌レコードは補助書誌レコードとなる。その選択には様々な手続きが実行されるが，おおむね，もっとも多くのMARCフィールドを有するものが基本書誌レコードになると見なし得る。

さらに，補助書誌レコードのデータ要素は，基本書誌レコードを補完するために利用される場合もある。例えば，基本書誌レコードが有しないフィールドが補助書誌レコードに存在する場合，そのフィールドが利用される。また，基本書誌レコードとは異なる件名標目が補助書誌レコードに指示されている場合，その件名が利用される。もちろん，当該資料を有する所蔵館名も加えられる。

こうして，基本書誌レコードと補助書誌レコードとは，相補うような仕方で整理され，データベース内でひとつの統合されたレコードを形成することになる。

COPACにおける書誌レコード同定の仕組みは完成したわけではない。誤同定や同定し損ないに関しての統計的な情報はないが，誤りは確実に存在するはずだ。これまでに発見された誤りは，同定方法の改善に寄与してきた。また，電子媒体資料に関する書誌レコードの増加についても，今後考慮に入れていかなければならない。利用者による報告等もふまえ，現行の仕組みの更なる精練が必要となるであろう。

大柴　忠彦（おおしばただひこ）

Ref: Cousins, Shirley Anne. Duplicate detection and record consolidation in large bibliographic databases: the COPAC database experience. J Inf Sci 24(4) 231-240, 1998
COPAC. ［http://COPAC.ac.uk/COPAC/］ (last access 1999.3.19)

図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

メインメニュー

CA1248 – オンライン総合目録における書誌レコードの同定方法 / 大柴忠彦

カレントアウェアネス
No.236　1999.04.20

CA1248

オンライン総合目録における書誌レコードの同定方法

メインメニュー

現在地

カレントアウェアネスNo.236 1999.04.20

CA1248

オンライン総合目録における書誌レコードの同定方法

類似の記事

カレントアウェアネス
No.236　1999.04.20