第3章 国立国会図書館における蔵書評価:チェックリスト法を用いた試験的な試み

第3章 国立国会図書館における蔵書評価:チェックリスト法を用いた試験的な試み

1. 目的と方法


(1) 目 的

 本章の目的は、国立国会図書館(NDL)における図書館情報学分野の洋図書(すなわち、日本語・中国語・韓国語以外の言語で書かれた図書)に関する所蔵をチェックリスト法によって実際に評価することにある。すなわち、いくつかの二次的資料等をチェックリストとして設定し、そこに掲載されている図書のうちの何パーセントが実際に所蔵されているかを調査する。本報告書では、この比率を「所蔵率」と呼ぶ(定義の詳細は第2節を参照)。

 当然のことながら、所蔵率が高いほど、よい評価が与えられることになる。しかし、実際には、NDLの収集方針において、図書館情報学分野の洋図書の網羅性は最も高いというわけではない。また、今回は、予算・時間等の制約から、他分野等の所蔵率との比較は行わない。したがって、調査の結果として算出された所蔵率の値自体の解釈、すなわちそのパーセンテージの意味するところについては、十分に明らかにできないことになる。例えば仮に、所蔵率が50%であったとして、その結果として、図書館情報学の洋図書の選書方針を改めるべきかどうか、改めるとしたらどの程度の所蔵率の上昇を目指すべきか、といった情報を得ることはできない。もし、完全な収集を目指しているならば、50%は「半分程度」の所蔵に留まっていることを示しており、収集の網羅性をさらに高めるべきと結論できる。また、同様の収集方針を設定している他分野の所蔵率が求められれば、図書館情報学の洋図書との相互的な比較評価が可能となり、収集に対するそれなりの示唆が得られるだろう。

 むしろ今回の研究のねらいは、主として、図書館情報学の洋図書を対象とした試験的な評価を試みることによって技術的な問題点を洗い出し、今後、より大規模で本格的な蔵書評価に進む場合のために、必要な知識・技術を集積することにある。専門家や図書館員による主観的な評価ではなく、二次資料等を用いたチェックリスト法を採用した理由もこの点に依るところが大きい。より少ない労力で、現実の業務に対する有用な評価結果を得るには、現在のコンピュータ技術を駆使した、チェックリスト法が最適であると考えられるからである。実際、第1章で概観したように、米国等においても、大規模な蔵書に対するチェックリスト法による評価事例は数多い。なお、今回はこのような試験的な試みであることから、評価対象は1996〜2000年に出版された洋図書の所蔵のみに一律に限定することとした。

 使用するチェックリストは次のとおりである。

  • 他の大規模図書館における蔵書目録
    (a)米国議会図書館(lc)における所蔵リスト
    (b)中国国家図書館における所蔵リスト
  • 書誌ユーティリティからのデータ
    (a)国立情報学研究所(nii)のnacsis-cat
    (b)nacsis-illにおいて請求された図書のリスト
  • 引用文献リスト
    (a)図書館情報学分野における権威ある図書中の引用文献リスト
    (b)図書館情報学分野における主要雑誌に掲載された論文中の引用文献リスト

 このように、本研究で使用するチェックリストは、網羅的な二次資料およびILLデータ、引用文献リストである。この点に関して、三浦・根本(1)は、

 チェックリスト法の一つの発展形態として、良書リストや書評図書、選定図書のような何らかの意味で価値づけを受けた資料に限定しないで、網羅的な一般書誌(全国書誌、販売書誌等)ないしその抽出リストを用いる方法がある。

 と述べ(p.227)、この方法を「一般書誌抽出法」と呼んでいるが、蔵書目録や書誌ユーティリティの目録を使うという本研究の方針はこの「一般書誌抽出法」を使用することに他ならない。いずれにせよ、本研究では、評価者がある観点からのひとつの基準として用いる「理想のリスト」としてチェックリストを捉えることとし、良書リスト以外の二次資料等もそれに広く含めることとする(実際、三浦・根本(1)にもさまざまな種類のチェックリストが掲げられている)。以下に、本研究が使用するチェックリストについて詳述する。


(2) 大規模図書館の蔵書目録

 チェックリストとして最初に考えうるのは、NDLに比肩する規模を持ち、当該分野の図書を網羅的に収集していると想定される図書館の所蔵リスト(蔵書目録)である。今回は特に、米国議会図書館(Library of Congress: LC)と中国国家図書館の所蔵リストを使用することとした。LCは改めて言うまでもなく、世界最大規模の中央図書館であり、さらに、今回の評価対象が洋図書であることからも、その蔵書目録はチェックリストとして有効であると考えられよう。

 また、アジア圏において大きな規模を持つ、中国国家図書館の蔵書をチェックリストに加えることとした。理想的には、当該言語を母国語とする国の中央図書館の蔵書目録をそれぞれチェックリストとして使えば万全である。例えば、フランス語の図書を評価するならばフランス国立図書館(Bibliotheque nationale de France)、ドイツ語ならばドイツ国立図書館(Deutsche Bibliothek)における所蔵リストは、それぞれの評価に最も適した網羅的なチェックリストになりうると予想される。しかしながら、今回の研究では、時間・予算・技術の点でそれらを取り上げるには至らず、LCおよび、言語に関して日本と類似した状況にて洋図書を収集している中国国家図書館を対象とするのに留めることとした(加えて、OPACを使っての検索集合作成・ダウンロードが難しく、実行に至らなかったという点も付記しておく)。

 さらに、各国の中央図書館だけでなく、大規模な大学図書館の蔵書との比較も有用であると考えられる。例えば、今回の場合には図書館情報学分野の評価であるため、慶應義塾大学や筑波大学などの大規模かつ学科・専攻レベルの図書館情報学をサポートしている図書館の蔵書目録をチェックリストとして利用することもできたと考えられる(今回は使用しない)。


(3) 書誌ユーティリティにおけるデータ

 書誌ユーティリティが維持している目録データベースは、通常、参加館の所蔵リストを統合した総合目録であるため、当然のことながら網羅性が高く、良質のチェックリストとして利用できる。第1章で見たように、OCLCはこの利点を生かして、蔵書評価サービスを展開している。そこで、本研究でもOCLCの目録データベースを使用することが考えられたが、残念ながら使用条件の点で折り合いが付かず、今回は日本の国立情報学研究所(NII)が提供するサービスNACSIS-CATの目録データベースを使うこととした。NACSIS-CATには、学術・研究図書館を中心に1,139の大学・機関が参加しており注1、この点、日本における書誌ユーティリティでありながら、その目録データベースは洋図書のチェックリストとして十分に高い品質を備えていると考えることができる。

 さらに、書誌ユーティリティからは、相互貸借においてどの資料が実際に請求されたかを示す、一種の「利用データ」をも得ることができる。図書館情報学分野でよく知られているように、資料利用に関してはジップの法則(Zipf's law)が成立する。すなわち、利用の大部分は蔵書の比較的小さな部分に対してなされる一方、蔵書の大部分はそれほど利用されないという状況が一般的に観察される(利用の80%が蔵書の20%によって潜在的にまかなわれるという意味で「80/20ルール」と呼ばれることもある)。とすれば、当然、よく利用される「重要な」図書を所蔵しているほうが望ましいということになり、相互貸借のデータはこの観点からの評価を可能にする。もちろん、当該図書館で提供できない資料が相互貸借への請求にまわるわけであるから、直ちに、これを「典型的」利用データと見なすことはできない。すなわち、相互貸借への請求のデータを、「利用」についての完全に代表的な標本とみなすことはできない。しかし、図書館情報学分野における1970年代から80年代にかけての英国図書館(British Library)の相互貸借データに関する議論を参照すれば(2)、相互貸借データが「利用データ」をかなりの程度で近似しうると考えてもそれほど大きな危険はないと考えられる。


(4) 引用文献リスト

 よく利用される図書をさらに直接的に識別するには、「引用データ」を活用することが考えられる。第1章で述べたように、大学図書館の蔵書評価においては、自らの大学における修士・博士論文の引用文献リストが有用なチェックリストになる。いわゆる「孫引き」の可能性もあるものの、それらの引用文献リスト中に掲載された資料は、基本的には、その修士課程・博士課程の学生に利用されたものとして捉えることができるからである。もし、その引用文献リストに当該図書館が所蔵していない資料が含まれれば、その学生はその他の情報源からその資料を得たことになる。これは、その図書館が利用者に対して十分な利用可能性(availability)を提供していないことの傍証となる。

 さらには、「引用」という事象は、単なる「利用」を示すだけでなく、引用された文献の「権威・名声」あるいは「重要性」を示すものとして捉えることもできる。このため最近では、学術論文による引用のデータに基づいて算出された指標を用い、科学者の活動を評価する試みも盛んになされている(3)(4)。この点でも、引用文献リストは貴重なチェックリストであるといえる。

 ただし、今回は、雑誌ではなく「図書」の評価であり、図書に関する引用データがそれほど潤沢に得られるとは考えにくい。例外はあろうが、学術論文が数多く引用するのはやはり論文であって図書ではない。さらには、雑誌ではなく図書自体を情報源としてその参照文献から「引用データ」を抽出する(例えばその分野の基本的な図書における参照文献リストを活用する)ことももちろん可能であるが、一定規模のチェックリストを得るには多大な労力が必要となる。そこで、今回は、この方法については、限定的に、主要図書としては『図書館情報学ハンドブック第2版』、学術論文としてはLibrary and Information Science Research、日本図書館情報学会誌、Library and Information Science(三田図書館・情報学会)の3誌のみに掲載されたものを利用した評価とし、方法の有効性を簡単に確かめる程度に留めることとした。


2. 「所蔵率」の定義と書誌同定


(1) 「所蔵率」の定義

 ここでは、LC蔵書目録をチェックリストとして使う場合を例として、その基本的な評価方法を確認しておく。おおよその手順は以下のとおりである。

  1. 評価対象(範囲)の定義(分類記号・出版年・使用言語による限定)
  2. 評価対象となる図書のLC蔵書目録からの抽出(チェックリストの確定)
  3. チェックリストとNDL蔵書目録との照合

 この結果、最終的に、チェックリスト中の図書の何パーセントを実際に所蔵しているかを示す所蔵率を算出することができる。厳密には、上記3.の照合作業におけるLCとNDLの各蔵書の集合的な関係は、図3-1のようになる。

図3-1 2つの図書館における蔵書の重なり


 すなわち、これら2つの図書館における蔵書を比較した場合、

  1. LCのみが所蔵している図書
  2. LCとNDLがともに所蔵している図書
  3. NDLのみが所蔵している図書

の3つの部分を特定できることになる。ここで、今回はLC蔵書目録(A+B)が「チェックリスト」として設定されるので、「所蔵率」は、

 所蔵率= (%)

で定義される。すなわち、LC蔵書目録を一種の「準拠枠」として使用するため、図3−1のC の部分は今回の研究目的では完全に無視することになる。


(2) 書誌同定

 チェックリスト法を実行するには、図3-1の「B」の部分を特定する必要がある。このためには、2つの所蔵リストを比較して、チェックリスト中の各図書がNDLの所蔵リストに含まれているかどうかを調べなければならない。この問題は、技術的には、異なる2つの書誌レコードが同一の資料を表現しているかどうかを識別する作業、すなわち「書誌同定」の作業へと還元されることになる。

 本来的な目録の機能の一つがこの種の同定であり、このため、詳細な目録規則がこれまで開発・運用されてきた。例えば、A図書館が、B図書館が所蔵する(と思われる)資料の相互貸借を申し込んだとして、その資料についてのA図書館側の記述方法とB図書館のそれとが異なっていれば、同定が困難となり、業務に支障をきたすことになる。そのためにAACR2(英米目録規則第2版)などの標準的な目録規則が普及し、図書館界はその運用によって、効果的・効率的な業務・サービスを展開してきた。したがって、少なくともLCの蔵書目録を使用する場合、チェックリスト自体が目録データであるので、本来的には、この種の作業は容易なはずである。

 ところが、今回の場合、大量のデータに対して、機械的・自動的に書誌同定を行う必要があり、人間が各目録データを逐次的に確認していくというわけにはいかない。ここに、大規模なチェックリストによる蔵書評価の難しさがある。同様な問題は、

     
  1. 2つの蔵書(またはデータベース)の間の重複部分(overlap)の検出
  2.  
  3. 1つの蔵書(またはデータベース)における重複レコード(すなわち、誤って余分に作成されてしまった書誌レコード)の検出

においても起こるため、これまで、書誌同定の技術的な研究が進められてきた(例えば松井(5)を参照。さらに、最近の成果については、相澤ら(6)による詳しいレビューがある)。特に、チェックリスト法は、図3-1に示されているように、形式的には、このうちのa.の重複検出に他ならず、この領域の成果の活用が可能である。


(3) 書誌同定のための照合キーとしてのISBN

 しかしながら、「完全に正確な」書誌同定アルゴリズムはまだなく、おそらくこの先も、開発されることはないように思われる。もちろん、かなりの精度を持つアルゴリズムがこれから先、提案される可能性は否定できないが、現時点では、十分な正確性を持ち、なおかつ実装の容易なアルゴリズムは存在しない。さらに、シリーズものに代表される書誌階層の存在や、処理対象となるレコードにおける記述の精粗が問題をいっそう複雑にしている。加えて、洋図書を対象とする場合に、書名等を表現する文字コードや翻字に関しても、十分な注意を払う必要がある(この点については付録2を参照)。

 幸い、今回は、引用文献リストをチェックリストとする場合を除き、基本的には図書に関する図書館目録間の照合作業が中心となるため、そのデータに国際標準図書番号(ISBN)が含まれている。したがって、まずはこれを照合キーとして使用することを検討すべきであろう。そこで、本研究では、書誌同定のための第一の照合キーとしてISBNを採用することとし、併せて、ISBNの照合キーとしての性能の確認を追加的に試みる。

 ISBNは、基本的には、各図書を一意に識別するための番号ではあるが、照合キーとしては、次のような問題がある。

  1. 「シリーズ・叢書」のような書誌階層を持つ資料の場合、集合体としてのISBNと、各巻に対する個別的なISBNとが存在することがある。
  2. 版・内容が同一にも関わらず、「装丁」の相違(例えばハードカバーなど)によって異なるISBNが付与される場合がある。

 したがって、ISBNデータが含まれているからといって、それを単純に使用するだけでは十分ではない。(もちろん、データ入力のいずれかの段階において、IBSNコードの誤りや付与忘れなども発生する可能性がある点にも留意が必要である。)

 もちろん、理屈上は、上記の場合の「正解」は簡単である。a.の場合には、各巻の個別ISBNに基づいて照合作業を行うべきであろうし、b.の場合には、装丁に関わらず、内容が同一であれば同じ資料と見なすことが多くの場合に妥当であろう。しかしながら、a.の場合には、各図書館の目録レコードの記述方法・作成方針によっては、集合体としてのISBNと個別的なISBNとの区別が難しいことがあるし、b.の場合には、2つのISBNが装丁だけ異なっていて内容は同一であることを示す別のデータによる一種の「名寄せ」をしなければならない。いずれも、大規模データに対して実施するのはそれほど容易ではない。

 そのため、今回の研究では、

 すべてのISBNを区別なく均等に扱い、チェックリスト中に出現するISBNの何パーセントを網羅しているかを実測することにより、所蔵率を近似する

という方針を採用することにする。図書館目録論で議論されているように、書誌的実体を正確に特定することは難しい。全体的な所蔵率を算出するようなマクロな評価においては、その点での厳密性をいたずらに追求して多くの労力・コストをかけるよりも、実際の処理において単純明確なルールを採用し、評価自体の費用対効果を高めることが重要だと判断した。


3. 大規模図書館における蔵書目録を使用した蔵書評価とその結果


(1) LC蔵書目録をチェックリストとした蔵書評価の手順と結果


1) 手 順

 最初にLC蔵書目録との照合作業について詳述する。おおよその手順は次のようになる。

 (付録1の5(1)のフローチャートも参照のこと。)

  1. LCのOPACからMARC形式注2でデータをダウンロードする(この段階での検索式を工夫して、資料種別・年代・ある程度の分野についての限定を行う)。
  2. 重複レコードを削除する。
  3. 上記の2.の作業結果で残ったレコードに対して分類記号と言語コードによってさらに厳密に限定をかける。
  4. 上記の各レコードからISBNを抽出し、重複を削除して、ISBNリストを作成する(これがチェックリストとなる)。
  5. 上記ISBNリストをNDLのISBNリストと照合する。

 最終的なチェックリスト作成のための限定条件は以下のとおりである。

 分野:LCのMARC(MARC21)の「050」または「051」フィールドにおけるサブフィールド$aが、Zで始まっているもの

 年代:出版年が1996〜2000年のもの

 言語:言語コードが日本語・中国語・韓国語以外のもの(「008」フィールドの37〜39桁目の値がjpn、chi、korのものを削除)

 なお、LC分類法における「Z」を先頭とする分類記号は表3-1のとおりである。

表3-1 LCCにおける図書館情報学分野

■Z書誌、図書館学、情報資源(一般)

 Z4〜Z115.5 本(一般)、書法、古文書学

 Z116〜Z659 出版・流通業

 Z662〜Z1000.5 図書館

 Z1001〜Z1121 一般書誌(学)

 Z1201〜Z4980 各国の全国書誌

 Z5051〜Z7999 主題書誌

 Z8001〜Z8999 個人の書誌

 ZA3038〜ZA5190 情報資源(一般)


2) 結 果

 上記手順における各段階のレコード・ISBNの件数は表3-2のとおりである。まず、検索式を作成し、OPACから48,298件のレコードをダウンロードしたところ、その中に重複レコードが含まれていたため、それらを削除した。2レコードが重複していたものが491件、3レコードが重複していたものが2件ずつあり、それぞれ1レコードだけを残してそれ以外のものを削除した結果、レコード件数は47,803件となった。

 次に、上記の方法で分類記号を限定したところ11,509件のレコードが残り、さらに言語コードを利用して日本語・中国語・韓国語のものを除いた結果、10,584件となった。これがチェックリストとなるべきレコードのリストであるが、上で述べたように、今回はISBNに基づく所蔵率を算出するために、ここからISBNを抽出した。その結果、ISBNの総数は8,934件となった。もしすべてのレコードにISBNが含まれていれば、ISBNの数は増えることはあっても(複数のISBNを含むレコードが存在するため)減ることはないが、ISBNを持たないレコードがいくつか存在したこと(10,584件のうち2,313件、約22%がISBNコードを持たない)、重複したISBNコードおよび不正なISBNコード(10桁、13桁以外のもの、チェック数字が間違っているもの)を削除したことにより、ISBNの総数はレコード件数よりも減っている。

表3-2 LC蔵書目録に基づく評価におけるレコード・ISBN件数

作業内容レコード件数ISBN件数備 考
1. OPACからのダウンロード48,298件出版年はここで限定
2. 重複レコードの除去47,803件2レコードの重複が491件、3レコードの重複が2件
3. 分類記号による限定11,509件表3-1参照
4. 言語コードによる限定10,584件 日・中・韓を削除
5. ISBNの抽出8,934件ISBNを含まないレコードがあるため、ISBNは減少した
6. NDLデータとの照合1,449件ISBNの単純な照合

 最後に、この8,934件のISBNのうち、NDLのデータ中に出現するものを調べたところ、全部で1,449件であった。したがって、全体的な所蔵率は約16%ということになる。

 さらに、これらの数値をより詳細な領域別・言語別で集計したものを、表3-3、3-4として示す。言語別では、英語図書の所蔵率が最も高く、24.2%である。次にロシア語の率が高く、18.6%で続いている。また、フランス語・ドイツ語はともに10%強であり、英語図書の半分に満たない。

表3-3 言語別での所蔵率(チェックリスト:LC蔵書目録)

 英 語フランス語ロシア語スペイン語ドイツ語アラビア語その他
ISBN総数
(構成比%)
4,783401403556831831,8778,934
(53.3)(4.5)(4.5)(6.2)(9.2)(0.9)(21.0)(100.0)
所 蔵 率24.2%11.5%18.6%2.2%10.2%0.0%3.8%16.2%

表3-4 領域別での所蔵率(チェックリスト:LC蔵書目録)

 本、書法、古文書学出版・流通業図書館一般書誌各国の全国書誌主題書誌個人の書誌情報資源
ISBN総数
(構成比%)
6131,4662,3845281,1891,8775723058,934
(6.9)(16.4)(26.7)(5.9)(13.3)(21.0)(6.4)(3.4)(100.0)
所 蔵 率3.9%7.4%33.3%17.8%13.5%9.7%5.8%17.0%16.2%

*各領域の分類記号については表3-1を参照。


 下位領域別に見た場合には、「Z662〜Z1000.5 図書館」の所蔵率が最も高く30%を超えている(33.3%)。それに対して、「Z4〜Z115.5 本(一般)、書法、古文書学」や「Z8001〜Z8999 個人の書誌」については低い。一般的に、書誌類の所蔵率は低めのようである。


3) 照合キーとしてのISBNの性能

 これまでの結果はすべて、ISBNのみをキーとした照合に基づいており、高度な書誌同定技法は応用していない。時間・予算等の制約から、残念ながら、この種の技法の適用は今後の課題とせざるを得ないが、念のため、NDLのデータにそのISBNが含まれていなかった図書が本当にNDLのデータの中に存在しないのかどうか、簡単に人手で確認してみることにした。

 すなわち、チェックリスト中の書誌レコードのうち、そのISBNがNDLデータには存在しなかったものを100件ほど単純無作為抽出し(擬似乱数を使用)、その書名からの検索をNDLデータに対して実施した(NDLデータは「200A」フィールド、LCデータは「245」および参考として「246」フィールドに含まれる書名を使用)。この際に、念のため、完全書名で検索するのではなく、書名中のストップワードを除いた語に対してトランケーション機能を使って語尾を削除し、それらを論理積で結合した検索式を作成した。例えば、LCデータ中の書名が「Future libraries, future catalogues」であるならば、検索式は「future* and librar* and catalog*」となる(「*」はトランケーションを意味する)。そして、その検索結果の中に、LC所蔵図書と同じものが含まれていないかどうかを目で確認した。

 結局、この100件に対するNDLデータからの検索結果中にLC所蔵図書は存在しなかった。すなわち、ISBNでは検出できず、なおかつ、書名検索ではヒットするような図書は存在しなかったわけである。これは、一部の図書を対象とした標本調査に過ぎないが、この結果から、ISBNは同定のための照合キーとしてかなりの信頼性を持っているという感触を得ることができた。

 なお、上で述べたように、言語による限定の後に残った書誌レコード10,584件(すなわち、これが書誌レコードベースのチェックリストとなる)のうち、ISBNを持たないものが20%程度あった。当然、これらのレコードに対してはNDLデータとの照合作業を行っていない。念のため、これらに対しても100件ほど無作為抽出をおこない、上と同様の書名検索を試してみた(図3-2参照)。その結果、ISBNのないLCレコードが4件ほどNDLデータに存在していることが発見された。ISBNが含まれていない「図書」としては、もともとISBNを取得していない図書形態の資料や、本来は逐次刊行物であるにもかかわらず、何らかの理由で資料種別が「図書」になっているものなどが考えられるが、いずれも、チェックリストに含まれるべき性質のものではないように思われる。また、実際に、この種の資料のうちNDL中に含まれるのはわずかであり(実際、上で述べたように、擬似乱数による標本ではこれに相当するレコードは発見されていない)、蔵書評価の結果に大きな影響を与えるとは考えにくい。特に、今回、所蔵率はISBNに基づいて計算しているので、タイトル検索によって発見されたこの4件の資料の存在は所蔵率そのものにはまったく影響しない。

図3-2 照合キーとしてのISBNの性能の確認手順


(2) 中国国家図書館蔵書目録をチェックリストとした蔵書評価の手順と結果


1) 手 順

 手順については、LC蔵書目録の場合とほぼ同様である。すなわち、

  1. 中国国家図書館のOPACからMARC形式(USMARC形式を独自に拡張したもの注3)データをダウンロードする。この際、資料種別・年代・分類記号である程度の絞込みを行う。ただし、国内刊行資料についてはダウンロードが不安定であったため(年代の絞り込みがうまく機能しない)、今回は、国外刊行資料のみを対象とする注4
  2. 重複レコードを削除する。
  3. 上記2.の作業の結果残ったレコードに対して分類記号と言語コードによってさらに厳密に限定をかける。
  4. 上記の各レコードからISBNを抽出して、ISBNリストを作成する(これがチェックリストとなる)。
  5. 上記ISBNリストをNDLのISBNリストと照合する。

である。(付録1の5(2)のフローチャートも参照のこと。)

 最終的なチェックリスト作成のための限定条件は以下のとおりである(中国国家図書館の分類記号は表3-5に示した)。

分野:「096」フィールド(中国図書館図書分類法)の$aの値がG203、G23、G25、Z8のいずれかから始まっているものを抽出
年代:出版年が1996〜2000年のもの
言語:言語コードが日本語・中国語・韓国語以外のもの(「008」フィールドの37桁目〜39桁目の値がjpn、chi、korのものを削除)

2) 結 果

 上記手順における各段階のレコード・ISBNの件数は表3-6のとおりである。まず、検索式を作成し、OPACから1,610件のレコードをダウンロードしたところ、その中に重複レコードが含まれていたため、それらを削除した。2レコードが重複していたものが12件あり、それぞれ1レコードだけを残してそれ以外のものを削除した結果、レコード件数は1,598件となった。

 次に、上記の方法で分類記号を限定したところ1,594件のレコードが残り、さらに言語コードを利用して日本語・中国語・韓国語のものを除いた結果、1,506件となった。これがチェックリストとなるべきレコードのリストであるが、上で述べたように、今回はISBNに基づく所蔵率を算出するために、ここからISBNを抽出した。その結果、ISBNの総数は1,429件となった。LC蔵書目録の場合と同様に、ISBNを持たないレコード(1,506件中に189件、約12.5%)、重複および不正なISBNコード(10桁、13桁以外のISBNコード、チェック数字が間違っているもの)が存在したため、ISBNの総数は、レコード件数よりも減っている。

表3−5 図書館情報学に関する中国国家図書館の分類記号

 ■G2 情報と知識の伝播

  G203 情報資源及びその管理

 G23 出版事業

  G230 出版作業の理論

  G231 組織と管理

  G232 編集作業

  G235 発行作業

  G236 宣伝、評価

  G237 各種の出版物の編集出版

  G238 出版作業者

  G239 世界各国の出版事業

 G25 図書館学、図書館事業

  G250 図書館学

  G251 図書館管理

  G252 読者

  G253 蔵書構築と蔵書の組織化

  G254 目録作業

  G255 各種資料の作業

  G256 文献学

  G257 目録学

  G258 各種の図書館

  G258.9 図書館建築・設備

  G259 世界各国の図書館事業

 Z8 図書目録、抄録、索引

 (Z81〜Z86 各種図書目録)

 Z81 全国書誌

 Z82 図書館蔵書目録

 Z83 各種の目録

 Z84 私家蔵書目録

 Z85 出版目録

 Z86 個人著作目録

 Z87 雑誌・新聞の目録

 Z88 主題書誌

 Z89 抄録、索引

表3-6 中国国家図書館蔵書目録に基づく評価におけるレコード・ISBN件数

作業内容レコード件数ISBN件数備 考
1. OPACからのダウンロード1,610件出版年はここで限定
2. 重複レコードの除去1,598件2レコードの重複が12件
3. 分類記号による限定1,594件表3-5参照
4. 言語コードによる限定1,506件 日・中・韓を削除
5. ISBNの抽出1,429件ISBNを含まないレコードがあるためISBNは減少、また不正なISBNコードは削除
6. NDLデータとの照合629件 

 LC蔵書目録では最終的に8,934件のISBNリストがチェックリストとなったので(表3-2参照)、それに比べれば、中国国家図書館の蔵書目録によるチェックリストの大きさは、約16%である。

 最後に、この1,429件のISBNコードのうち、NDLのデータ中に出現するものを調べたところ、全部で629件存在した。したがって、全体的な所蔵率(一致率)は約44%ということになる。LCの場合には約16%であったから、それに比べればかなり高い。もっとも、この結果はLCと中国国家図書館のそれぞれのチェックリストの大きさから考えれば当然かもしれない。さらに、これらの数値を、より詳細な領域別・言語別で集計した結果を表3-7、3-8として示す。

表3−7 言語別での所蔵率(チェックリスト:中国国家図書館蔵書目録)

 英 語フランス語ロシア語スペイン語ドイツ語アラビア語その他
ISBN総数
(構成比%)
1,0145717471220551,429
(71.0)(4.0)(12.2)(0.5)(8.5)(0.0)(3.8)(100.0)
所 蔵 率51.0%35.1%20.7%14.3%28.7%36.4%44.0%

表3−8 領域別での所蔵率(チェックリスト:中国国家図書館蔵書目録)

 情報資源
G203
出版事業
G23
図書館学
G25
目録、抄録、索引
Z8
ISBN総数
(構成比%)
252119092841,429
(1.7)(14.8)(63.6)(19.9)(100.0)
所 蔵 率32.0%19.0%55.6%26.8%44.0%

*各領域の分類記号については表3−5を参照。

 言語別で見ると、LCによる結果と同様、英語の所蔵率は高く50%を超える。それに対して、スペイン語やロシア語についての所蔵率が低い。一方、領域別では、やはり、「G25 図書館学、図書館事業」の所蔵率が高く、それに比べれば、「Z8 図書目録、抄録、索引」の所蔵率は低くなっている。


3) 照合キーとしてのISBNの性能

 中国国家図書館の場合にも、LC蔵書目録に対して行ったのと同様な、照合キーとしてのISBNの性能の確認を試みた(図3-2と同様)。すなわち、擬似乱数を作成し、

  1. NDLデータに出現しないISBNコードを持つ書誌レコード100件を抽出し、本当にそれらがNDLデータ中に存在しないかどうかを書名検索で確認
  2. 出版年・分類記号・言語コードで限定した後の書誌レコード1,506件のうち、ISBNコードを持たないものがNDLデータ中に存在するかどうかを、100件無作為抽出して、書名検索で確認

の2種類の作業を行った。

 書名検索に使用したフィールドは、NDLデータでは「200A」のフィールド、中国国家図書館蔵書目録では「245」フィールドである。書名検索の方法としては、LC蔵書目録の場合と同様に、書名中のストップワード以外の語に対してトランケーション機能を使い、それらを論理積で結合した検索式を使用した。その結果、

1. ISBNは一致しなかったが、NDLデータに出現していたもの6件(6.0%)
2. ISBNコードを持たないが、実際にNDLデータには書誌レコードが存在したもの5件(5.0%)

という結果となった。

 LC蔵書目録との照合の箇所でも指摘したように、今回の作業は、図書の現物を参照したわけではなく、書誌レコードのみからの主観的判断である点には注意しなければならないが、LC蔵書目録の場合とは異なり、1.については6件のレコードの存在が確認された。これらはいわば「ISBNコードによる同定漏れ」に相当するが、今回の場合、その原因は、主として、チェックリスト側のISBNデータの誤りやNDLデータ側のISBNコードの欠損にあった。

 この結果、所蔵率は44.0%ではなく、素朴な外挿法(Extrapolation Method)を使えば、

(%)

と計算される(もちろん、これには「統計的誤差」が含まれることに注意)。すなわち、今回の機械的なISBNコードの照合作業は、所蔵率を過小評価してしまったことになる。ただし、その大きさは、44.0%に対して47.4%であり、過小評価の程度はそれほどには大きくない。チェックリスト法による蔵書評価は物理学的な実験とは異なり、さまざまな要因(主題の限定方法、資料種別の判定方法など)が厳密に統制されたものではないことを考えれば、この程度の過小評価は許容される誤差範囲と考えることができよう。ただし、所蔵率が過小評価の可能性を持つことは常に念頭に置くべきである。

 また、2.の結果からは、LC蔵書目録と同様に、中国国家図書館目録においても、ISBNを持たない書誌レコードの何件かが実際にはNDLデータに含まれていることが判明した。すでに述べたように、これらは今回の所蔵率の計算結果には影響を与えないが、チェックリストを設定する場合に、図書/雑誌などの資料判別の仕方、書誌レコードへのISBNコードの格納方針などを十分に確認して、評価される側(今回はNDLの蔵書目録)との整合性に十分な注意を払う必要があることを示している。


4. 書誌ユーティリティのデータを利用した蔵書評価とその結果


(1) NACSIS-CATのデータを利用した蔵書評価


1) 手 順

 今回の研究においては、NIIより、NACSIS-CATの目録データベースの研究目的使用を特別に認めていただいた。実際にはCD-Rによってデータの提供を受け、その際に、言語・資料種別等にある程度の条件をつけて、範囲を限定した特別なデータベースを作成してもらった。この研究用データベースに対して、LCや中国国家図書館の場合とほぼ同様な手順で、チェックリストを作成した。具体的には以下のとおりである。(付録1の5(3)のフローチャートも参照のこと。)

  1. 米国議会図書館分類法(LCC)、中国図書館図書分類法、デューイ分類法(DCC)を使って、主題領域を限定
  2. 出版開始年(フィールド名:YR1)を使って、1996〜2000年に出版された資料に限定
  3. 残った書誌レコードからISBNコードを抽出し、チェックリストを確定
  4. これらのISBNコードがNDLデータに含まれるかどうかを照合

 なお、言語に関する絞込みはNIIからのデータ提供の時点で実施し、これまで同様、日本語・韓国語・中国語のレコードは除去してある。

 分類記号での絞り込みの詳細は次のとおりである(LCCと中国国家図書館分類法の場合にはこれまでと同様)。

 *LCCについては、「Z」で始まる分類記号を持つものを抽出

 *中国図書館図書分類法については、「G203」「G23」「G25」「Z8」で始まる分類記号を持つものを抽出

 *DCCについては、LCCと対応するものとして、「002」「01」「02」「070.5」「09」「303.4833」「417.7」「652」「653」「686」「745.6」で始まる分類記号を持つものを抽出注5

 NACSIS-CATの目録データベースでは、総合目録という性質上、これらの複数の分類法が混在している。そのため、当該レコードで使用されている分類法を示すフィールドがあり、ここで条件を絞って上記のルールを適用した。

表3-9 NACSIS-CATに基づく評価におけるレコード・ISBN件数

作業内容レコード件数ISBN件数備 考
1. 分類記号による限定6,353件 
2. 出版年による限定3,711件  
3. ISBNの抽出4,036件145件のレコードでISBNコードなし*
4. NDLデータとの照合1,163件 

*ただし、複数のISBNコードを持つレコードが存在するために、ISBNコードの件数自体は書誌レコード件数よりも増えていることに注意。


2) 結 果

 上記手順における各段階のレコード・ISBNの件数は表3-9のとおりである。提供されたNACSIS-CATデータに対して、分類記号による限定を行ったところ、6,353件となり、さらに出版年で絞り込み、3,711件が残った。この3,711件からISBNコードを抽出した結果、全部で4,036件となった(3,711件中ISBNコードを持たないものは214件、5.8%)。最後に、これらの4,036件に対して、NDLデータ中の有無を確認した結果、1,163件が存在し、所蔵率は約29%であることがわかった。この数値は、LC蔵書目録の場合よりも高く、中国国家図書館の場合よりも低い。

 言語別の所蔵率の内訳を表3-10に示す。LCや中国国家図書館の場合と同様に、英語の所蔵率が最も高いという結果となった。また、それに続くのはロシア語図書であり、この順位はLC蔵書目録の場合と同様である。

表3-10 言語別での所蔵率(チェックリスト:NACSIS-CAT)

 英 語フランス語ロシア語スペイン語ドイツ語アラビア語その他
ISBN総数
(構成比%)
3,152991777216623684036
(78.1)(2.5)(4.4)(1.8)(4.1)(0.0)(9.1)(100.0)
所 蔵 率32.9%9.0%22.0%2.8%16.3%0.0%13.3%28.8%

(2) NACSIS-ILLのデータを利用した蔵書評価

 NIIから提供を受けた相互貸借(ILL)データのうち、上記のNACSIS-CATによるチェックリスト(出版年を絞り込んだ後のもの3,711件、表3-9参照)に含まれるものを書誌IDによって抽出したところ、55件見つかった。この55件は、3,711件中、少なくとも利用者による1度の利用(厳密には「請求」)がなされたという点で、一種の「重要図書」と見なすことができる。

 上と同様に、この55件からISBNコードを抽出し、それらがNDLデータに出現するかどうかを調べたところ、ISBNコード57件中、11件がNDLデータ中に存在していた。したがって、所蔵率は約19%である。この値は、NACSIS-CATそのものでの所蔵率約29%よりもやや低い。


5. 引用文献リストを利用した蔵書評価とその結果


(1) 主要図書の参考文献を利用した蔵書評価

 今回、主要図書としては「図書館情報学ハンドブック第2版」(丸善、1999)のみを使用することとし、そこに参考文献として掲げられている資料のうち、洋図書と判断されるもの35件をまず抽出した。これらに対して、それぞれAmazon.comによる検索機能を使って、ISBNコードを付与した。これらが、この場合のチェックリストということになる。すなわち、これまでの所蔵率の計算と同様に、引用文献リストの場合でも、形式的にはISBNコードに基づく照合作業を実施したわけである。

 この35件のISBNコードのうち、実際にNDLデータに含まれているものは24件であった。すなわち、所蔵率は約69%ということになる。


(2) 学術雑誌の引用データを利用した蔵書評価

 引用文献リストを抽出する情報源としては、Library and Information Science Research(LISR)、Library and Information Science(LIS:三田図書館・情報学会)、日本図書館情報学会誌の3つの学術雑誌を今回は使用することとした。これらに掲載された雑誌論文の引用文献リストから1996〜2000年に出版された資料を抽出し、それぞれ、Amazon.comを使って検索してISBNコードを調べた。そして、ISBNコードを付与することができたものに対して、IBSNコードによるNDLデータとの照合作業を実行した。その結果を表3-11に示す。なお、それぞれの雑誌に関して、引用データの抽出に使用した巻・号は以下のとおりである。

 Library and Information Science Research (LISR):26巻1号〜4号(2004年)

 Library and Information Science(LIS):No.51および52(2004年)

 日本図書館情報学会誌:50巻1〜4号(2004年)

表3-11 学術雑誌の引用データによる所蔵率

雑  誌抽出された資料数*ISBNコードの総数うちNDLデータに含まれるもの所蔵率
Library and Information Science Research76321340.6%
Library and Information Science(三田図書館・情報学会)72150.0%
日本図書館情報学会誌600
合 計89341441.2%

*1996〜2000年に出版されたものに限定

 LISR誌については、まず、引用文献のうちから、雑誌論文や年鑑類、ウェッブ文献などを除いた結果、76件が残り、そのうち、32件の資料にISBNを付与することができた(ISBNを付与できなかった資料は主として、会議録や報告書などである)。これをチェックリストして、NDLデータにおける有無を調べたところ、13件が存在した(所蔵率40.6%)。LIS誌は7件中ISBNが付与できたものが2件、うち1件がNDLデータに存在した。他方、日本図書館情報学会誌については、同様の手順で作業した結果、ISBNを付与できる洋図書が残念ながら含まれていなかった。全体としては、3誌のチェックリストに含まれる計34件の図書のうち14件が所蔵されていたので、所蔵率は41.2%ということになる。


6. 蔵書評価結果のまとめと考察


(1) 評価結果のまとめ

 各チェックリストによる所蔵率を表3-12に要約する。この表が示すとおり、LC蔵書目録をチェックリストとした場合に所蔵率が最も低く、『図書館情報学ハンドブック第2版』を使った場合が最も高いという結果になった。『図書館情報学ハンドブック第2版』、学術雑誌(LISR、LIS)の場合には、チェックリストがかなり小さく、その大きさが100文献に満たないため十分に信頼性のある結果とはいえないかもしれないが、LC蔵書目録やNACSIS-CATデータベースに比べて、やや高めの所蔵率となっており、このことから、国立国会図書館においては「より利用される」図書が優先して収集される傾向のあることを暫定的な結論として考えてもよいだろう。例えば、LISR誌に限定して考えるならば、LC蔵書の16%しか所蔵していないにも関わらず、LISR誌の引用文献の約40%をカバーしているからである(表3-11参照)。もっとも、表3-4が示すように、書誌等を除いた「Z662〜Z1000.5 図書館」の所蔵率は約33%なので、数値としては、表3-12が示す値よりもその差は開いてはいない点には注意を要する(「統計的有意差」はない可能性がある)。

表3-12 各チェックリストにおける所蔵率

 チェックリストチェックリストの大きさ
(ISBNコードの数)
所蔵率
1LC蔵書目録8,93416.2%
2中国国家図書館蔵書目録1,42944.0%
3NACSIS-CAT4,03628.8%
4NACSIS-ILL5719.2%
5図書館情報学ハンドブック第2版3568.6%
6学術雑誌(LISR誌・LIS誌)2941.2%

(2) チェックリスト法の妥当性と方法的問題


1) チェックリスト法の妥当性とその活用方法

 チェックリスト法は、設定したチェックリストを「理想のもの」と仮定して、それに含まれる資料に関する所蔵の程度や所蔵のされ方を分析することによって、蔵書を評価する方法である。したがって、この手法の妥当性は、まずは、チェックリスト自体の妥当性に影響されることになる。

 現実に、適切なチェックリストを見つけることはそれほど容易ではない。今回の場合、「NDLにおける洋図書」の所蔵の評価であることから、幅広く資料を網羅しているという点で、LCの蔵書目録は理想のリストにかなり近いと予想されるが、それでももちろん「完全なリスト」ではないだろう。そのため、本研究では、複数のチェックリストを用意し、多角的に所蔵率を算出することを試みた。現実的に単一の「完全な」チェックリストを設定できる場合はむしろまれであり、いくつかのチェックリストを並行的に使用することは、この問題に対するひとつの解決手段であろう。例えば、今回その可能性があったように、「引用文献リストに対しては所蔵率が高く、網羅的な書誌・目録に対しては所蔵率が低い」という結果から、少ない予算で効果的な選書がなされていると判断できるかもしれない。

 また、ある程度、質の高いと予想されるチェックリストを複数用意できた場合に、そのうちの一定数のチェックリストに繰り返し登場するような資料を「重要」と判断して、それらが所蔵されていない場合に優先的に収集するといった方策も可能かもしれない。例えば、チェックリストを5つ用意したときに、そのうちの半数以上に登場するISBNコードに対応する資料がもしNDLに所蔵されていない場合に、それらの資料の購入を検討することは重要であろう。

 ただし実際には、予算・時間等の制約から、複数のチェックリストを用意することが難しいことも多いであろう。この場合に、実際的な方法は、1つのチェックリストに対して、蔵書のいくつかの部分を比較評価することである。例えば、図書館情報学分野と同じ収集レベルを持つ他の領域と所蔵率を比べることによって、何らかの知見を得ることができるかもしれない。

 いずれにせよ、(単数または複数の)適切なチェックリストを選択するには、チェックリスト自体の性質や範囲をきちんと把握する必要がある。一般書誌ならばその収録方針、また、蔵書目録ならばその図書館における収集方針・レベルなどを確認しておく必要がある。引用文献リストの場合には、引用データを抽出する学術雑誌等の選択等に留意しなければならない。

 チェックリストの妥当性を厳密に見極めることは多くの場合難しい。このためには、チェックリスト自体の評価が必要であり、まさに自館の蔵書を評価するのと同じ問題状況となってしまう。そのためには、例えばさらに別のチェックリストが必要となるわけで、究極的には、際限のないチェックリストの「連鎖」が生じることになろう。それだからこそ、現実的な制約に沿って選択されたチェックリストの性質や範囲等をよく把握し、その線から逸脱しない評価・分析を行うことが重要になる。


2) 方法的問題

 方法的には、書誌同定技術に改善の余地がある。今回のISBNによる照合において、中国国家図書館の場合に、同定漏れと思われる事例が見出され、その主原因は、ISBNコードの入力誤りや欠損にあった。また、この章で議論したように、資料群が書誌階層を持つ場合に上位レベルと下位レベルで複数のISBNが存在することがあるという問題や、装丁が異なる場合に異なるISBNが付与される問題などもある。特に、今回の研究ではこの問題に対して、書誌的実体のレベルでの所蔵率の計算を避け、ISBNコードに基づく「近似的な」所蔵率を計算するに留めたわけである。ISBNによる照合が適用できない場合に、2つの書誌レコードが本当に同一の書誌的実体を記述したものであるかどうかを判断するのは実際に難しい。この点でも、大規模な資料リストに対する効果的・効率的な重複レコード検出アルゴリズムを、ISBNでの照合の補助として使用することができれば有用であろう。

 また今回問題となったのは、複数の図書館間で、ある1つの資料に対する分類や資料種別の解釈が異なるという点である。例えば、洋図書を評価するためのチェックリストの中に、評価される側の図書館のほうでは逐次刊行物扱いとなる資料が入っている場合、十分な注意を払って照合を実行しない限り、それが同定漏れを引き起こす可能性がある(この場合、計算された所蔵率は、実際の所蔵を過小評価することになる)。この点にも細心の注意を払う必要がある。


引用文献

(1) 三浦逸雄、根本彰.『コレクションの形成と管理』雄山閣,1993.

(2) Letter to the editorとして、Journal of Documentation誌のVol.32(1976), No.4やVol.33(1977), No.2で議論がなされている。次の文献も参照。岸田和明.蔵書管理のための数量的アプローチ:文献レビュー.Library and Information Science, No.33, pp.39-69 (1995)

(3) 窪田輝蔵.『科学を計る:ガーフィールドとインパクト・ファクター』インターメディカル,1996

(4) 山崎茂明.『インパクトファクタ−を解き明かす』情報科学技術協会.2004

(5) 松井幸子.第9章 文献データベースの構築.『社会科学文献データベースの構造解析』丸善,1992.p.205-228.

(6) 相澤彰子, 大山敬三, 高須淳宏, 安達淳: レコード同定問題に関する研究の課題と現状 (サーベイ論文), 電子情報通信学会論文誌, Vol.J88-D-I,No.3,pp.576-589 (2005-3)



注1 2006年2月28日現在
http://www.nii.ac.jp/CAT-ILL/contents/ncat_stat_org.html

注2 形式については以下を参照
http://www.loc.gov/marc/marcdocz.html

注3 採用しているルール等についてはhttp://www.nlc.gov.cn/old/about/dept/caibian/org.htmを参照。

注4 国内刊行資料には香港・台湾で出版されたものが含まれるため、今回はこれらがチェックリストからは除外されることになる。

注5 この対応ルールについては以下を参照。
http://www.questionpoint.org/crs/html/help/en/ask/ask_map_lcctoddc.html