E2730 – 源氏物語が繋ぐ人と資料:「デジタル源氏物語」の構築

カレントアウェアネス-E

No.487 2024.09.19

 

 E2730

源氏物語が繋ぐ人と資料:「デジタル源氏物語」の構築

裏源氏勉強会/東京大学附属図書館・中村美里(なかむらみさ)、
木越みち(きごしみち)、小川夏代子(おがわかよこ)

 

●はじめに

  2024年7月、東京大学附属図書館デジタルアーカイブ活用に関する勉強会(通称:裏源氏勉強会)は、『源氏物語』の研究プラットフォーム「デジタル源氏物語」構築の取組が評価され、第59回国立大学図書館協会賞を受賞した。この裏源氏勉強会は、室町後期あるいは江戸初期の写本であり、「東大本」とも言われる『源氏物語』を東京大学総合図書館が2019年にデジタル公開したことを機に、教員と図書館職員によるデジタルデータの活用を考える勉強会として発足した。本稿では、『源氏物語』の本文研究プラットフォームとなることを目指した「デジタル源氏物語」の構築について述べる。

●「デジタル源氏物語」の構築

  勉強会での議論を経て、まずは「東大本」を起点として、『源氏物語』の諸本や現代語訳、異なる系統の『源氏物語』の校異情報を一覧できる研究書『校異源氏物語』(以下『校異』)などにスムーズに遷移できるウェブサイトの構築を目指した。

  まず国立国会図書館デジタルコレクションで公開されている『校異』をOCRにかけ校正作業を行い、全5巻分の『校異』テキストを完成させた。なお『校異』は5巻分のページが通番になっており、これを識別番号として扱うことができる。そこで「東大本」等に対して『校異』ページ番号を付与し、画像と『校異』とを紐づける作業を行った。具体的には『校異』各ページの先頭部分を画像上で特定していく作業だが、くずし字が読めない者には難しいものであった。そこでAIくずし字OCRサービスである「KuroNetくずし字認識サービス」を活用し、画像から生成したテキストと『校異』テキストを比較して求める箇所を特定する方法をとった。これにより、くずし字が読めないメンバーでも作業が可能になり、作業時間を短縮できた。この他、青空文庫で公開されている与謝野晶子訳とのリンク作業等も行った。

  これらの作業と同時進行でシステムの構築も進め、2019年11月29日に「デジタル源氏物語」を公開した。この時は第1帖「桐壺」のみだったが、2020年9月には全54帖を公開することができた。

  上記の『校異』テキスト作成やページ番号付与などのデータ整備は主に図書館職員が担った。作業量は多かったものの、勉強会でその必要性や目指すゴールが共有されていたことでモチベーションを維持できた。

●新たな機能の追加

  「デジタル源氏物語」公開後も、勉強会では新機能についてのアイデアを出し合い、「AI画像検索版」、「挿絵画像の比較」等を追加している。このうち「AI画像検索版」は、求める場面が諸本画像のどこにあるかをキーワードで検索できる機能で、2024年8月現在で31点の諸本画像の横断検索が可能である。諸本の追加にあたっては、必要に応じて公開元に二次利用申請の手続きを行った。また様々な機能追加に伴い、利用者向けに説明動画を作成しYouTubeで公開した。

●「デジタル源氏物語」の独自性と意義

  この取組の独自性や意義について、以下の点が挙げられる。

  • 『源氏物語』の持つ多様性を生かした活用方法の提示
      『源氏物語』は著名な作品ゆえに、写本、版本、注釈書、現代語訳など様々なバリエーションを持ち、デジタル化されているものも多い。「デジタル源氏物語」ではそれらをデジタルならではのかたちで紐づけたことにより、『源氏物語』が持つ多彩さを提示できた。
  • 教員・図書館職員により構成された勉強会であることの強み
      中古文学専門の教員による視点、情報学専門の教員によるデジタル技術の活用に加え、図書館職員はデータ整備、二次利用の許諾確認や説明動画作成など日常業務で培った経験を生かして関わった。三者三様の知識・技術を持ち寄ったことにより、多角的な視点から検討・構築を進めることができた。
  • 機関の枠を超えた、画像やデジタルツールの利用
      「デジタル源氏物語」は、多くのIIIF画像や他機関が開発したデジタルツールも利用して構築されている。背景にはデジタルアーカイブの世界でも進むコンテンツのオープンデータ化やツールのオープンソース化などの動きがあり、そうした流れがあればこそ可能になった取組である。

●おわりに

  2000年代以降、資料のデジタル化が進み、ここ数年間は公開資料の活用を考える段階に来ているように思う。IIIFのような活用のための枠組み、デジタル技術の進化もその可能性を後押ししている。古典籍とデジタル技術を組み合わせた活用の一例として、ぜひ「デジタル源氏物語」を楽しんでいただきたい。

Ref:
“第59回国立大学図書館協会賞受賞者が決定しました”. 国立大学図書館協会.
https://www.janul.jp/ja/news/20240613
デジタル源氏物語.
https://genji.dl.itc.u-tokyo.ac.jp/
“【一般公開版】9.国立大学図書館協会賞受賞者挨拶:中村美里(東京大学附属図書館デジタルアーカイブ活用に関する勉強会(通称:裏源氏勉強会))/第71回国立大学図書館協会総会”. YouTube. 2024-09-04.
https://youtu.be/jfvRp4VBdM8?si=sfleo9wPXDiaGQBN
“KuroNetくずし字認識サービス(AI OCR)”. 人文学オープンデータ共同利用センター. http://codh.rois.ac.jp/kuronet/
デジタル源氏物語(AI画像検索版).
https://genji-ai.web.app/
“挿絵画像の比較”. デジタル源氏物語.
https://genji.dl.itc.u-tokyo.ac.jp/picture
デジタル源氏物語. “説明動画”. YouTube.
https://www.youtube.com/playlist?list=PLJ9pNFDdwPxJ9DCzuRgF1EZfoZAdFkHFo
デジタル源氏物語 : 源氏物語本文研究プラットフォームを目指して. 裏源氏勉強会. 2024.
https://doi.org/10.15083/0002009974
中村美里, 木越みち, 小川夏代子. 研究プラットフォーム構築のためのデジタルデータ活用─教職協働による「デジタル源氏物語」公開の試み─. 大学図書館研究. 2024, 126, 14p.
https://doi.org/10.20722/jcul.2165
中村覚, 田村隆, 永崎研宣. 源氏物語本文研究支援システム「デジタル源氏物語」の開発におけるIIIF・TEIの活用. 研究報告人文科学とコンピュータ(CH). 2020, 2020-CH-124(2), p. 1-7.
http://id.nii.ac.jp/1001/00206588/
中村覚, 田村隆, 永崎研宣. デジタル源氏物語(AI画像検索版):くずし字OCR と編集距離を用いた写本・版本の比較支援システムの開発.研究報告人文科学とコンピュータ(CH). 2022, 2022-CH-128(13), p. 1-8.
http://id.nii.ac.jp/1001/00216229/