欧州研究図書館協会(LIBER)、テキスト認識処理に関心のある図書館員にとって有用な文献のリストを公開

2020年7月8日、欧州研究図書館協会(LIBER)は、光学文字認識(OCR)・手書きテキスト認識(Handwritten Text Recognition:HTR)といった、テキスト認識処理に関する文献リストを公開したことを発表しました。

LIBERは、テキスト認識処理の詳細、テキスト認識処理分野における新しい動向、品質の低いテキスト認識がデジタルコレクションに与える影響といった話題に関心のある図書館員に有用な文献を紹介する目的でリストを公開しました。LIBERのデジタル人文学・デジタル文化遺産ワーキンググループでは、メンバー宛に有用な文献の推薦を募って文献管理ツールZoteroへの集約を行っており、公開された文献リストは、このZoteroに集約された文献から抜粋されたものです。リストには以下のような文献が含まれています。

・米国のノースイースタン大学の報告書“A Research Agenda for Historical and Multilingual Optical Character Recognition”。印刷テキストや手稿を対象とした歴史的・多言語資料のOCRの品質改善に関する9つの提言などが含まれている。

・Horizon 2020が助成するHTR処理のためのプラットフォーム“Transkribus”によるHTR技術の開発・応用・影響等の現況の概説“Transforming scholarship in the archives through handwritten text recognition – Transkribus as a case study”。

・GitHub上に公開されたリンク集“Awesome OCR”。OCRエンジン、ファイルフォーマット、プロジェクトの概要、データセットなど、OCRに関する優れたリソースへのリンクが示されている。

・OCRに関連して様々な図書館で取り組まれているプロジェクト等を紹介したEuropeana Proの記事“Europeana Pro Issue 13”

・18世紀の英国・英語圏刊行物の全文データベースEighteenth Century Collections Online(ECCO)の事例として、OCRが歴史的文書分析に与える影響の定量化を試みた論文“Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study”。

LIBERは他に有用な文献があれば、電子メールで共有するか、Zoteroのライブラリへ追加するように呼びかけています。

Reading List: Text Recognition for Digital Collections(LIBER,2020/7/8)
https://libereurope.eu/blog/2020/07/08/reading-list-text-recognition-for-digital-collections/

OCR/HTR LIBER DH WG(Zotero)
https://www.zotero.org/groups/969489/liber_digital_humanities_working_group/collections/5ZS7CKRJ

関連:
A Research Agenda for Historical and Multilingual Optical Character Recognition(Northeastern University)
https://ocr.northeastern.edu/report/

Muehlberger, G. et al. Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study. Journal of Documentation. 2019, 75(5), p. 954-976
https://doi.org/10.1108/JD-07-2018-0114

Awesome OCR(GitHub)
https://github.com/kba/awesome-ocr

Issue 13: OCR(Europeana Pro,2019/7/31)
https://pro.europeana.eu/page/issue-13-ocr

Hill, Mark J.; Hengchen, Simon. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study. Digital Scholarship in the Humanities, 2019, 34(4), p. 825–843
https://doi.org/10.1093/llc/fqz024

参考:
欧州研究図書館協会(LIBER)、デジタル人文学の文献リストを公開
Posted 2018年2月1日
https://current.ndl.go.jp/node/35413

欧州研究図書館協会、デジタル・ヒューマニティーズに関するワーキンググループを立ち上げ
Posted 2017年2月6日
http://current.ndl.go.jp/node/33396