E2068 – 日本学多巻資料の総目次・索引電子化プロジェクト

カレントアウェアネス-E

No.356 2018.10.25

 

 E2068

日本学多巻資料の総目次・索引電子化プロジェクト

 

 「日本学多巻資料の総目次・索引電子化プロジェクト」は,北米で所蔵している多巻資料(全集,雑誌などの復刻版やマイクロフィルムなど)約150セット分の索引や総目次を電子化したプロジェクトである。データは米・ワシントン大学図書館のリポジトリResearchWorksに収録し,セット毎のURIを各多巻資料のOCLC書誌データに加えた。OCLC書誌データはWorldCatで世界中どこからでも見ることができるので,電子化対象にした多巻資料の索引や総目次は日本の図書館や研究者にも利用してもらうことが可能である。

 日本学の研究資料には,全集や復刻版など多巻資料が多い。高額なものも多く,北米では日本研究を支える図書館が協力して,北米のいずれかの図書館にこのような多巻資料があれば,自館では購入を控えるという共同蔵書構築(collaborative collection development)がしばしば行われる。

 しかし,多巻資料となれば,何十巻にも及ぶ資料のどこに,探している情報が掲載されているかを確認するために,まず索引や総目次を相互貸借サービスを利用し取り寄せる手間がかかることが問題であった。また,インターネットや電子資料の発展により,自館にある資料でさえ,書庫へ出向いて索引や総目次を調べることを億劫に感じる利用者が増えている。そうした不便や不満の解消のために,多巻資料の索引や総目次の電子化が望まれていた。

 日本学多巻資料の総目次・索引を電子化するという構想自体は,2013年の東亜図書館協会(CEAL)サンディエゴ大会(E1419参照)で北米の日本学図書館員と日本の出版社との話し合いで生まれたものである。しかし電子化には資金が必要であった。2015年,CEALが,アンドリュー・W・メロン財団より,28万8,000ドルの資金を得て設立した,北米における東アジア図書館・図書館員のための助成プログラム(Innovation Grants for East Asian Librarians)からの援助,5万2,500ドルを得て,ついに可能となった。プロジェクトは2017年1月から2018年4月にかけて行った。

 プロジェクトが電子化の対象にしたのは,北米での日本学多巻資料の共同蔵書構築を行ってきた高額図書資料購入助成金プログラム(Japanese Multi-Volume Sets Grant Project;MVS)で購入された資料である。この助成プログラムは日米友好基金の助成を受けて,北米日本研究資料調整協議会(NCC)が運営したもので,1992年から2017年度にプログラムが終了するまでに,北米の38図書館が多巻資料4万5,000巻以上をこの助成金を受けて購入した。

 MVSプログラムは,北米全体の日本研究支援に寄与することを目的とし,助成金で購入された資料は迅速丁寧に目録を作成することとスムーズな相互貸借が条件であった。しかし,いざ貸出作業を進めると索引・総目次が参考図書扱いで貸出不可だったり,索引・目次の冊子が紛失していたりするなど,様々な不便が浮き彫りになった。索引・目次が単巻でなく,資料本体に含まれていることもあり,目録情報を見ただけでは,どの巻を借りれば良いか分からないケースもあった。この場合,資料の所蔵館の図書館員,または資料の出版社,あるいは日本の図書館へ問い合わせることもあった。プロジェクトでは,資料の所在確認,OCR精度の調整や出版社と交わす電子化許諾書の用意を入念に行ったうえで,北米の23図書館から150セット分の索引や総目次をワシントン大学図書館へ取り寄せ,電子化を開始させた。

 相互貸借サービスで借りた資料は数週間以内に返却する必要があるため,スキャニングは,スピード勝負であった。またワシントン大学からスキャニングを行う会社までの輸送料などの費用も抑えたかった。このため,ワシントン大学図書館近辺のスキャニング会社に作業を依頼した。日本語の資料は,縦書き,横書き,右開き,左開きなど様々あり,ページ番号にも漢字が使われることもある。日本語を理解するスタッフのいない会社とのコミュニケーションには工夫が必要であった。例えば,スキャンする範囲の開始ページに青いスリップ,終了ページには赤いスリップを挿入した。

 300dpiの画像(jpeg)としてスキャンしたデータのOCR処理は日本の会社に依頼した。資料の中には復刻版など,OCR処理の難しいものもあり,目視確認も依頼したため精度は非常に高かった。資料の長期保存を考慮して,米国でデジタル化資料のアーカイブ基準として推奨されているPDF/A-1として納入してもらった。データのやりとりにはGoogle Driveを使った。画像PDFではなく,文字のテキスト化を実施したことで,利用者は索引や総目次の検索にとどまらず,テキストを利用した分析や頻出語の可視化なども可能となる。このように,画像PDFにテキストのデータを追加する手間をかけたのは,デジタル人文学での活用等を意識した決定であった。また,作成したPDFデータは,クリエイティブ・コモンズ 表示-非営利-継承(CC BY-NC-SA 4.0)のライセンスを付与し,将来の新たな利用価値の創出につなげた。

 PDF資料のURIは多巻資料のOCLC書誌データ内の項目に加え,多巻資料を所蔵する図書館の書誌データへ反映させた。図書館によっては多巻資料本体と索引の冊子の目録を別々に取っていたり,同じ資料でも複数の図書館が目録を取っていた。そのため,電子化した資料は150程度であったが,関連書誌データは380件以上にのぼり,それらのOCLC書誌データにURIを加えることとなった。

 索引・総目次のオンライン化が役立つ日本学資料はまだたくさんある。日本国内外で日本語資料を利用する研究者支援のためにも,国内外の図書館や各出版社による索引・総目次の電子化の継続的な仕組みづくりが必要なのではないだろうか。

ワシントン大学図書館・田中あずさ
ピッツバーグ大学図書館・グッド長橋広行
ピッツバーグ大学図書館・グッド和代
コーネル大学図書館・ダニエル・マッキー

Ref:
https://digital.lib.washington.edu/researchworks/handle/1773/42610
https://guides.lib.uw.edu/research/japaneseindex/home
https://www.worldcat.org/
http://cealnews.blogspot.com/2015/01/mellon-foundation-awards-grant-to.html
https://www.loc.gov/preservation/digital/formats/fdd/fdd000318.shtml
E1419