E2353 – みんなで翻刻:歴史資料の市民参加型翻刻プラットフォーム

カレントアウェアネス-E

No.408 2021.02.18

 

 E2353

みんなで翻刻:歴史資料の市民参加型翻刻プラットフォーム

国立歴史民俗博物館・橋本雄太(はしもとゆうた)
東京大学地震研究所・加納靖之(かのうやすゆき)

 

   新しい知識・情報の創造という図書館・ライブラリーが果たす役割を実現していることや,古文書を読める世代を失いつつある結果,それらを死蔵しかねない状況の図書館にとって存在意義が大きいとしてLibrary of the Year 2020 の大賞を受賞した『みんなで翻刻』は,インターネットを通じて誰もが参加できる歴史資料の翻刻プラットフォームである。「翻刻」とは歴史学の用語で,古文書や古典籍など歴史文献資料に書かれた文字を活字に起こし,史料集として刊行したり,データベース化してオンライン公開したりする作業のことを指す。日本には江戸時代以前から伝来する大量の文献資料が保存されており,近年はこれら資料のデジタル化も急速に進められている。しかしテキスト化された歴史資料は全体のごく一部に過ぎないため,全文検索が適用できないなど効果的な利活用が困難な状況にある。『みんなで翻刻』は,多数の参加者の協力を募ることでこれら文献資料の大規模なテキスト化を実現し,歴史資料の利活用促進につなげることを目的としたプロジェクトである。翻刻されたテキストはCC BY-SAライセンスで公開され,出典を明示すれば自由に利用できる。

   もともと『みんなで翻刻』は,京都大学古地震研究会の活動の一環として企画されたプロジェクトである。京都大学古地震研究会は,歴史地震などについて書かれた史料を題材に,過去の人々が書いたものを読むためのスキルを身につけることを目標とした勉強会で,2012年に京都大学の地球惑星科学専攻のゼミの時間を利用してはじまった。研究者,学生,図書館関係者,市民などさまざまな立場のメンバーを得て,現在も継続している。地震学,歴史学だけでなく,気象学や地理学,情報学,日本文学などさまざまな専門分野の人々が集まっているのも特徴であり,このようななかで『みんなで翻刻』のアイデアが生まれ,実現につながっていくことになる。なお本稿の執筆者のうち,加納は地震学研究者であり,2012年の古地震研究会設立当初から同会の運営に携わっている。もう一人の執筆者の橋本は,人文情報学を専攻する大学院生という立場で2014年から研究会に参加を始め,『みんなで翻刻』のシステム設計と開発を担当した。

   『みんなで翻刻』のウェブサイトは2017年1月に正式公開された。システムの公開にあたって最初に翻刻対象として選定されたのは,東京大学地震研究所(地震研)図書室が所蔵する災害史料コレクション「石本文庫」の収録史料114点(画像3,193枚)である。その翻刻には少なく見積もっても2年から3年を要すると予想したが,システム公開直後から多数のユーザーが翻刻に参加した結果,実際にはこの予想を遥かに上回るペースで翻刻が進行し,公開から5か月で石本文庫の翻刻は完了してしまった。そこで筆者らは石本文庫以外の地震研所蔵資料を翻刻対象として追加したが,2019年7月には地震研が公開する和古書499点全点の翻刻も完了してしまった。

   これを受けて,古地震研究会では翻刻対象を歴史資料一般に拡大した新バージョンの開発に着手した。2019年7月に公開されたこのバージョンは,IIIF(CA1989参照)に対応し,IIIF形式で配信される任意の資料を翻刻対象として取り込むことができる。加えて,支援機能としてくずし字の自動認識AIを搭載しており,くずし字解読の初学者でも翻刻に参加することが可能である。このAIは人文学オープンデータ共同利用センター(CODH)および凸版印刷株式会社からそれぞれ提供を受けたものである。

   IIIFに対応したことで,新バージョンの『みんなで翻刻』は複数の翻刻プロジェクトを並行して運用することが可能になった。2021年2月時点では計15件のプロジェクトが実施されており,以下の13機関の公開資料,計1,890点が翻刻対象として登録されている。

  • 国立国会図書館
  • 福井県文書館
  • 京都大学図書館機構
  • 東京学芸大学附属図書館
  • 京都府立京都学・歴彩館
  • 茨城大学図書館
  • 東京大学総合図書館
  • 国文学研究資料館
  • 国立歴史民俗博物館
  • 関西大学アジア・オープン・リサーチセンター(KU-ORCAS)
  • 琉球大学附属図書館
  • ハワイ大学マノア校
  • フランス国立図書館

   なお新バージョンでは本稿執筆時点までに1,360人が参加者としてアカウントを登録している。参加者による入力文字数は前バージョンと合わせて1,400万字を超えており,ここ最近は毎日2万字から3万字のペースで増加を続けている。コロナ禍の外出自粛を機会に『みんなで翻刻』への参加を始めた参加者も多いようである。

   古地震研究会という一団体のプロジェクトとして出発した『みんなで翻刻』は,多数の資料所蔵機関と連携する一種のプラットフォームへと成長した。今後の目標は,Wikipediaや青空文庫と同等の,さらに高い公共性を有するプラットフォームへと発展を遂げることである。その実現に向けては様々な人々の助力が必要になる。たとえば,最近開始したプロジェクトは,2020年の第22回図書館総合展でのフォーラムの開催やLibrary of the Year 2020 大賞受賞がきっかけとなったものも多い。翻刻への参加だけでなく,プロジェクトの立ち上げにも「みんな」の力を得たいと考えている。『みんなで翻刻』の運営やシステム開発にご関心のある向きは,筆者らまでご一報頂ければ幸いである。

Ref:
“Library of the Year 2020 大賞・オーディエンス賞決定!”. IRI知的資源イニシアチブ. 2020-11-06.
https://www.iri-net.org/loy/library-of-the-year2020result/
“Library of the Year 2020 選考委員長コメントおよび受賞機関コメント公開”. IRI知的資源イニシアチブ. 2020-12-17.
https://www.iri-net.org/loy/loy2020report/
みんなで翻刻.
https://honkoku.org/
京都大学古地震研究会.
https://kozisin.info/
International Image Interoperability Framework.
https://iiif.io/
“凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発”. 凸版印刷. 2021-02-16.
https://www.toppan.co.jp/news/2021/02/newsrelease210216_2.html
“古文書解読とくずし字資料の利活用サービス「ふみのは」”. 凸版印刷.
https://www.toppan.co.jp/biz/fuminoha/
永崎研宣. IIIFの概要と主要APIバージョン3.0の公開. カレントアウェアネス. 2020, (346), CA1989, p. 13-16.
https://doi.org/10.11501/11596735