付録1:ISBNコードの処理過程
第3章で述べたように、ISBN(国際標準図書番号)は、書誌同定のための効率的かつ効果的照合キーとして、チェックリスト法の実行には欠かせない道具である。しかしながら、その処理はそれほど単純ではない。この付録では、第3章にて報告した、ISBNコードの照合過程について、さらに具体的に述べる。
1. NDLデータのISBN
最初に、各チェックリストとの突き合わせ処理を行う元となる、国立国会図書館(NDL)の蔵書データにおけるISBNの処理過程について述べる。最初に洋書(日本語・韓国語・中国語以外の図書)を蔵書目録データから抽出したところ、対象書誌レコードは93,774件であった。それらの書誌レコードに対して、ISBNフィールドの存在の有無を調べたところ、
対象書誌レコード数 | 93,774 | (100.0%) |
うち、ISBNフィールドが存在しないレコード数 | 24,343 | (26.0%) |
うち、ISBNフィールドが存在するレコード数 | 69,431 | (74.0%) |
となった。
1つのISBNフィールドには複数のISBNコードが含まれる。この繰り返し分を含めて、ISBNコードの総数は、83,866件であった。これらのISBNコードが正しいかどうかを調べたところ、
ISBNの総数(繰り返し含む) | 83,866 | (100.0%) |
うち、正しいISBN | 83,080 | (99.1%) |
うち、誤ったISBN | 786 | (0.9%) |
であった。
正しいISBNについては、
13桁のISBN | 190 | (0.2%) |
10桁のISBN | 82,890 | (99.8%) |
という内訳であった。
一方、誤ったISBNの内訳は以下のとおりである。
13桁だがチェックディジットが誤っている | 9 | (1.1%) |
10桁だがチェックディジットが誤っている | 585 | (74.4%) |
13桁でも10桁でもない | 185 | (23.5%) |
数字、X以外の文字が出現 | 7 | (0.9%) |
(上から順に判定し、当てはまったところで分類を終了)
なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。
結果として、正しいISBNについては、
正しいISBNの総数(重複削除前) | 83,080 | (100.0%) |
正しいISBNの総数(重複削除後) | 82,408 | (99.2%) |
13桁のISBN | 190 | (82,408に対して0.2%) |
10桁のISBN | 82,218 | (82,408に対して99.8%) |
となった。
2. LCデータのISBN
OPACから抽出した書誌レコードは48,298件であり、そこから重複を削除すると、47,803件が残った。次に、分類記号で限定し、レコード件数は11,509件となった。このうち、日本語・韓国語・中国語以外のレコードは10,584件であった。
この10,584件に対してISBNフィールドの存在の有無を調べたところ、
対象書誌レコード数 | 10,584 |
うち、ISBNフィールドが存在しない | 2,313 |
うち、ISBNフィールドが存在する | 8,271 |
となった。
しかし、ISBNフィールドが存在するレコード8,271件のうち、正しいISBN($a)サブフィールドが存在するものは8,125件のみであった(残り146件は、誤ったISBN($Z)サブフィールドのみ)。このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は8,984件であった。
これらのISBNコードが正しいかどうかを調べたところ、
ISBNコードの総数(繰り返し含む) | 8,984 |
うち、正しいISBN | 8,977 |
うち、誤ったISBN | 7 |
であった。
正しいISBNについては、
13桁のISBN | 4 |
10桁のISBN | 8,973 |
という内訳であった。
一方、誤ったISBNの内訳は以下のとおりである。
13桁だがチェックディジットが誤っている | 0 |
10桁だがチェックディジットが誤っている | 3 |
13桁でも10桁でもない | 4 |
数字、X以外の文字が出現 | 0 |
(上から順に判定し、当てはまったところで分類を終了)
なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。
結果として、正しいISBNについては、
正しいISBNの総数(重複削除前) | 8,973 |
正しいISBNの総数(重複削除後) | 8,934 |
(重複削除されたのはすべて10桁)
となった。
3. 中国国家図書館データのISBN概要
年代・分類記号で限定した結果得られたレコード1,610件から重複を削除したところ、1,598件が残った(分類に問題があったレコードはなし)。ここから、日本語・中国語・韓国語のレコードを除いたところ、1,506件となった。
この1,506件に対してISBNフィールドの存在の有無を調べたところ、
対象レコード | 1,506 |
うち、ISBNフィールドが存在しない | 185 |
うち、ISBNフィールドが存在する | 1,321 |
となった。
しかし、ISBNフィールドが存在するレコード1,321件のうち、正しいISBN($a)サブフィールドが存在するものは1,317件のみであった(残り4件は、誤ったISBN($Z)サブフィールドのみ)。このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は1,509件であった。これらのISBNコードが正しいかどうかを調べたところ、
ISBNフィールドの総数(繰り返し含む) | 1,509 |
うち、正しいISBN | 1,482 |
うち、誤ったISBN | 27 |
であった。
正しいISBNについては、
13桁のISBN | 0 |
10桁のISBN | 1,482 |
という内訳であった。
一方、誤ったISBNの内訳は以下のとおりである。
13桁だがチェックディジットが誤っている | 0 |
10桁だがチェックディジットが誤っている | 16 |
13桁でも10桁でもない | 11 |
数字、X以外の文字が出現 | 0 |
(上から順に判定し、当てはまったところで分類を終了)
なお、誤ったISBNの判定は、チェックディジット、桁数、文字を機械的に判定した。したがって、桁ずれ、不要な文字の挿入、Xと10の間違いなどは、すべて誤ったISBNとなっている。
結果として、正しいISBNについては、
正しいISBNの総数(重複削除前) | 1,482(すべて10桁) |
正しいISBNの総数(重複削除後) | 1,429(すべて10桁) |
となった。
4. NIIデータのISBN
NIIから提供を受けた対象書誌レコード数 833,763件のうち、分類済みは476,722件であった(未分類は357,041件)。そのうち、LC分類、中国図書館分類、デューイ十進分類のいずれも付与されていない(すなわち、これら3種以外の分類が付与されている)レコードが33,439件ほど存在した。その内訳は次のとおりである。
BBK | 61 | NDC9 | 16,268 |
CC | 2 | NDLC | 2,193 |
NDC | 54 | NLM | 707 |
NDC6 | 242 | SG | 1,825 |
NDC7 | 1,014 | SG86 | 8,809 |
NDC8 | 7,281 | UDC | 350 |
(1書誌レコードに複数の分類が付与される場合があるので、合計は33,439を上回る)。
なお、この集合の中には、本来、図書館学に分類されるべきものが入っていると考えられる。しかし、さらに分類のマッピングを行うことは非常に難しく、今回は無視せざるを得なかった。
残りのレコードから図書館情報学に該当する分類を有するレコードを抽出したところ、6,353件となった。内訳は以下のとおりである。
LC分類が付与されており、かつ、その分類が図書館学に該当 | 3,995 |
中国図書館分類が付与されており、かつ、その分類が図書館学に該当 | 0 |
デューイ十進分類が付与されており、かつ、その分類が図書館学に該当 | 2,358 |
(上から順に判定し、当てはまったところで分類を終了)
これらに対して、年代で限定をかけたところ、1996〜2000刊行の資料は3,711件であった。この3,711件に対してISBNフィールドの存在の有無を調べたところ、
図書館学に該当する分類を有し、1996〜2000刊行の資料 | 3,711 |
うち、ISBNフィールドが存在しない | 214 |
うち、ISBNフィールドが存在する | 3,497 |
であった。
このフィールドには複数のISBNコードが含まれる可能性があり、ISBNコードの総数は4,124件であった。これらのコードはすべて正しかった(誤ったISBNフィールド「XISBN」は最初から処理対象外としたため)。結果として、
正しいISBNの総数(重複削除前) | 4,124 |
正しいISBNの総数(重複削除後) | 4,036 |
となった。
5. 作業手順
以上の作業手順を具体的にフローチャートにして示す。なお、以下のフローチャートでは、ISBNコードの妥当性の検証(ISBNコードで検出できなかった資料がNDL中に存在するかどうか、および、ISBNコードを持たないレコードが本当にNDLデータ中に存在しないのかについての調査。本文第3章参照)も含まれている。
LC蔵書目録に関する作業手順(フローチャート)
中国国家図書館蔵書目録に関する作業手順(フローチャート)
NII提供のデータに関する作業手順(フローチャート)
※クリックすると、別ウィンドウでフローチャートをご覧頂けます。