付録1:ISBNコードの処理過程

付録1:ISBNコードの処理過程

 第3章で述べたように、ISBN(国際標準図書番号)は、書誌同定のための効率的かつ効果的照合キーとして、チェックリスト法の実行には欠かせない道具である。しかしながら、その処理はそれほど単純ではない。この付録では、第3章にて報告した、ISBNコードの照合過程について、さらに具体的に述べる。


1. NDLデータのISBN

 最初に、各チェックリストとの突き合わせ処理を行う元となる、国立国会図書館(NDL)の蔵書データにおけるISBNの処理過程について述べる。最初に洋書(日本語・韓国語・中国語以外の図書)を蔵書目録データから抽出したところ、対象書誌レコードは93,774件であった。それらの書誌レコードに対して、ISBNフィールドの存在の有無を調べたところ、

対象書誌レコード数93,774(100.0%)
うち、ISBNフィールドが存在しないレコード数24,343(26.0%)
うち、ISBNフィールドが存在するレコード数69,431(74.0%)

となった。

 1つのISBNフィールドには複数のISBNコードが含まれる。この繰り返し分を含めて、ISBNコードの総数は、83,866件であった。これらのISBNコードが正しいかどうかを調べたところ、

ISBNの総数(繰り返し含む)83,866(100.0%)
うち、正しいISBN 83,080(99.1%)
うち、誤ったISBN 786(0.9%)

であった。

 正しいISBNについては、

13桁のISBN 190(0.2%)
10桁のISBN 82,890(99.8%)

という内訳であった。

 一方、誤ったISBNの内訳は以下のとおりである。

13桁だがチェックディジットが誤っている9(1.1%)
10桁だがチェックディジットが誤っている585(74.4%)
13桁でも10桁でもない185(23.5%)
数字、X以外の文字が出現7(0.9%)

(上から順に判定し、当てはまったところで分類を終了)

 なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。

 結果として、正しいISBNについては、

正しいISBNの総数(重複削除前)83,080(100.0%)
正しいISBNの総数(重複削除後)82,408(99.2%)
13桁のISBN 190(82,408に対して0.2%)
10桁のISBN 82,218(82,408に対して99.8%)

となった。


2. LCデータのISBN

 OPACから抽出した書誌レコードは48,298件であり、そこから重複を削除すると、47,803件が残った。次に、分類記号で限定し、レコード件数は11,509件となった。このうち、日本語・韓国語・中国語以外のレコードは10,584件であった。

 この10,584件に対してISBNフィールドの存在の有無を調べたところ、

対象書誌レコード数10,584
うち、ISBNフィールドが存在しない2,313
うち、ISBNフィールドが存在する8,271

となった。

 しかし、ISBNフィールドが存在するレコード8,271件のうち、正しいISBN($a)サブフィールドが存在するものは8,125件のみであった(残り146件は、誤ったISBN($Z)サブフィールドのみ)。このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は8,984件であった。

 これらのISBNコードが正しいかどうかを調べたところ、

ISBNコードの総数(繰り返し含む)8,984
うち、正しいISBN 8,977
うち、誤ったISBN 7

であった。

 正しいISBNについては、

13桁のISBN 4
10桁のISBN 8,973

という内訳であった。

 一方、誤ったISBNの内訳は以下のとおりである。

13桁だがチェックディジットが誤っている0
10桁だがチェックディジットが誤っている3
13桁でも10桁でもない4
数字、X以外の文字が出現0

(上から順に判定し、当てはまったところで分類を終了)

 なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。

 結果として、正しいISBNについては、

正しいISBNの総数(重複削除前)8,973
正しいISBNの総数(重複削除後)8,934

(重複削除されたのはすべて10桁)

となった。


3. 中国国家図書館データのISBN概要

 年代・分類記号で限定した結果得られたレコード1,610件から重複を削除したところ、1,598件が残った(分類に問題があったレコードはなし)。ここから、日本語・中国語・韓国語のレコードを除いたところ、1,506件となった。

 この1,506件に対してISBNフィールドの存在の有無を調べたところ、

対象レコード1,506
うち、ISBNフィールドが存在しない185
うち、ISBNフィールドが存在する1,321

となった。

 しかし、ISBNフィールドが存在するレコード1,321件のうち、正しいISBN($a)サブフィールドが存在するものは1,317件のみであった(残り4件は、誤ったISBN($Z)サブフィールドのみ)。このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は1,509件であった。これらのISBNコードが正しいかどうかを調べたところ、

ISBNフィールドの総数(繰り返し含む)1,509
うち、正しいISBN 1,482
うち、誤ったISBN 27

であった。

 正しいISBNについては、

13桁のISBN 0
10桁のISBN 1,482

という内訳であった。

 一方、誤ったISBNの内訳は以下のとおりである。

13桁だがチェックディジットが誤っている0
10桁だがチェックディジットが誤っている16
13桁でも10桁でもない11
数字、X以外の文字が出現0

(上から順に判定し、当てはまったところで分類を終了)

 なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。

 結果として、正しいISBNについては、

正しいISBNの総数(重複削除前)1,482(すべて10桁)
正しいISBNの総数(重複削除後)1,429(すべて10桁)

となった。


4. NIIデータのISBN

 NIIから提供を受けた対象書誌レコード数 833,763件のうち、分類済みは476,722件であった(未分類は357,041件)。そのうち、LC分類、中国図書館分類、デューイ十進分類のいずれも付与されていない(すなわち、これら3種以外の分類が付与されている)レコードが33,439件ほど存在した。その内訳は次のとおりである。 

BBK61NDC9 16,268
CC2NDLC 2,193
NDC54NLM 707
NDC6242SG 1,825
NDC71,014SG868,809
NDC87,281UDC350

(1書誌レコードに複数の分類が付与される場合があるので、合計は33,439を上回る)。

 なお、この集合の中には、本来、図書館学に分類されるべきものが入っていると考えられる。しかし、さらに分類のマッピングを行うことは非常に難しく、今回は無視せざるを得なかった。

 残りのレコードから図書館情報学に該当する分類を有するレコードを抽出したところ、6,353件となった。内訳は以下のとおりである。

LC分類が付与されており、かつ、その分類が図書館学に該当3,995
中国図書館分類が付与されており、かつ、その分類が図書館学に該当0
デューイ十進分類が付与されており、かつ、その分類が図書館学に該当2,358

 (上から順に判定し、当てはまったところで分類を終了)

 これらに対して、年代で限定をかけたところ、1996〜2000刊行の資料は3,711件であった。この3,711件に対してISBNフィールドの存在の有無を調べたところ、

図書館学に該当する分類を有し、1996〜2000刊行の資料3,711
うち、ISBNフィールドが存在しない214
うち、ISBNフィールドが存在する3,497

であった。

 このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は4,124件であった。これらのコードはすべて正しかった(誤ったISBNフィールド「XISBN」は最初から処理対象外としたため)。結果として、

正しいISBNの総数(重複削除前)4,124
正しいISBNの総数(重複削除後)4,036

となった。


5. 作業手順

 以上の作業手順を具体的にフローチャートにして示す。なお、以下のフローチャートでは、ISBNコードの妥当性の検証(ISBNコードで検出できなかった資料がNDL中に存在するかどうか、および、ISBNコードを持たないレコードが本当にNDLデータ中に存在しないのかについての調査。本文第3章参照)も含まれている。

LC蔵書目録に関する作業手順(フローチャート)

中国国家図書館蔵書目録に関する作業手順(フローチャート)

NII提供のデータに関する作業手順(フローチャート)

※クリックすると、別ウィンドウでフローチャートをご覧頂けます。