国立国会図書館(NDL)、NDL古典籍OCR ver.3を公開

2024年2月7日、国立国会図書館(NDL)のNDLラボが、「NDL古典籍OCR」のver.3を公式GitHub上で公開したと発表しました。

「NDL古典籍OCR」は、古典籍資料のデジタル化画像から全文テキストデータを作成するために、NDLが実験的に開発しているプログラムです。ver.3では2023年8月に公開したver.2より、漢籍資料のレイアウト認識性能が向上しました。開発に利用した「OCR学習用データセット(みんなで翻刻)」も公開しています。

あわせて、NDL古典籍OCR ver.3を利用して、次世代デジタルライブラリーに搭載している古典籍資料約8万点の再テキスト化を行い、テキストデータの差し替えを実施しています。

NDL古典籍OCR ver.3の公開及び次世代デジタルライブラリー搭載古典籍資料のテキストデータの差替えについて(NDLラボ, 2024/2/7)
https://lab.ndl.go.jp/news/2023/2024-02-07/

ndl-lab/ndlkotenocr_cli(GitHub)
https://github.com/ndl-lab/ndlkotenocr_cli

次世代デジタルライブラリー
https://lab.ndl.go.jp/dl/

参考:
国立国会図書館、NDL古典籍OCR ver.2を公開 [2023年08月24日]
https://current.ndl.go.jp/car/190774