CA1248 - オンライン総合目録における書誌レコードの同定方法 / 大柴忠彦

カレントアウェアネス
No.236 1999.04.20


CA1248

オンライン総合目録における書誌レコードの同定方法

CURL(Consortium of University Research Libraries)はオックスフォード,ケンブリッジ,ロンドン,エジンバラ,トリニティ・カレッジ(ダブリン)といったイギリスとアイルランドの大学図書館の協力組織で,COPAC(CURL OPAC)はCURLが提供する総合目録データベースである。1999年3月現在で12館のデータを含み,総レコード件数は500万件(内85%以上が図書で,他に雑誌,ビデオ等を含む)である。サービスは無料であり,ウエブによるほか,TelnetおよびZ39.50のインターフェイスによっても提供している。

総合目録であるため,ひとつの資料に対して書誌レコードの重複する可能性が当然ある。しかし,利用者の検索の利便性等を考慮すれば,同一資料に対する書誌レコードの重複は避けなければならない。そのために,重複するレコードを探し出し,統合・整理してデータベースを構築していく仕組みが,テストと調査を重ねた上で開発されてきた。その仕組みは,厳密さと柔軟さとを持ち合わせたものといえる。

重複するレコードの同定方法は,2段階に大きく分かれる。最初の同定の段階(「段階1」と呼ぶ)では,重複の可能性のあるレコードをチェックする。この段階では,あくまで重複は 「可能性」にとどまる。次の段階(「段階2」と呼ぶ)で,それら重複の可能性のあるレコードについて,個々のフィールドごとの比較を行い,そこで重複レコードが確定される。

「段階1」では,さらに2通りの方法で同定が行われる。最初の方法は,ISBNないしISSNによる同定(「ISBN/ISSN同定」と呼ぶ)。ここでマッチすれば,重複可能性ありとみなされ,「段階2」へ進む。ISBNもしくはISSNでマッチしない,あるいはそれらを有しないレコードは,第2の方法,すなわち著者・タイトルそれぞれの頭4文字と刊行年との組み合わせによって同定を行う(「頭文字同定」と呼ぶ)。例えば,1995年に刊行されたオースチンの『高慢と偏見』(Pride And Prejudice)であれば,“aust/prid,1995”という具合に。

「段階1」における2通りの方法で,いかなるレコードともマッチしなかったものは,単一レコードとしてデータベースに加わる。マッチしたレコードは,「段階2」へ移る。

「段階2」では,タイトル,著者,版次等フィールドごとの同定を行うが,比較されるフィールドは,「段階1」においてマッチした方法に応じて異なる。「段階1」を「ISBN/ISSN同定」で通過したレコードの方が,「頭文字同定」で通過したレコードより,緩やかに同定される。例えば,後者はページ付けおよび出版社について比較を行うが,前者は行わない。また,前者では一部のフィールドの比較において「得点制」を採用し(例えば,刊行年がマッチすれば3点,著者なら2点といった具合),すべてのフィールドが一致しなくとも,総得点が一定点以上を満たせば,重複レコードとなる。

目録記述上の偏差を考慮し,個々のフィールドの比較においては,柔軟性を持たせている。例えば,著者やタイトルの比較の際,区切り記号等は省かれ,すべてが小文字に変換される。一方,多巻ものの場合には,より複雑な処理がなされる。

こうして,重複であると確定したレコードは,さらに次の,データの統合・整理の過程へ移行する。

重複レコードはそれぞれ群を形成し,各々の群の中で基本書誌レコードが選ばれ,それ以外の書誌レコードは補助書誌レコードとなる。その選択には様々な手続きが実行されるが,おおむね,もっとも多くのMARCフィールドを有するものが基本書誌レコードになると見なし得る。

さらに,補助書誌レコードのデータ要素は,基本書誌レコードを補完するために利用される場合もある。例えば,基本書誌レコードが有しないフィールドが補助書誌レコードに存在する場合,そのフィールドが利用される。また,基本書誌レコードとは異なる件名標目が補助書誌レコードに指示されている場合,その件名が利用される。もちろん,当該資料を有する所蔵館名も加えられる。

こうして,基本書誌レコードと補助書誌レコードとは,相補うような仕方で整理され,データベース内でひとつの統合されたレコードを形成することになる。

COPACにおける書誌レコード同定の仕組みは完成したわけではない。誤同定や同定し損ないに関しての統計的な情報はないが,誤りは確実に存在するはずだ。これまでに発見された誤りは,同定方法の改善に寄与してきた。また,電子媒体資料に関する書誌レコードの増加についても,今後考慮に入れていかなければならない。利用者による報告等もふまえ,現行の仕組みの更なる精練が必要となるであろう。

大柴 忠彦(おおしばただひこ)

Ref: Cousins, Shirley Anne. Duplicate detection and record consolidation in large bibliographic databases: the COPAC database experience. J Inf Sci 24(4) 231-240, 1998
COPAC. [http://COPAC.ac.uk/COPAC/] (last access 1999.3.19)