2023年8月8日、国立国会図書館(NDL)のNDLラボは、同公式GitHubで、「NDL古典籍OCR」のver.2を公開したことを発表しました。
「NDL古典籍OCR」は、古典籍資料のデジタル化画像から全文テキストデータを作成するために、NDLが実験的に開発しているプログラムです。
2023年1月に公開したver.1より、読み順整序機能が向上し、文字認識性能が改善されています。
NDL古典籍OCRは、CC BY 4.0ライセンスで公開しています。なお、ver.1はGitHubリポジトリのver.1ブランチで提供しています。
NDL古典籍OCR ver.2の公開について(NDLラボ, 2023/8/8)
https://lab.ndl.go.jp/news/2023/2023-08-08/
ndl-lab/ndlkotenocr_cli(GitHub)
https://github.com/ndl-lab/ndlkotenocr_cli
参考:
国立国会図書館、「次世代デジタルライブラリー」への古典籍資料のテキストデータ投入を完了:「NDL古典籍OCR」のソースコード等を公開 [2023年01月31日]
https://current.ndl.go.jp/car/171792
E2588 – 2022年度NDLデジタルライブラリーカフェ<報告>
カレントアウェアネス-E No.454 2023.03.23
https://current.ndl.go.jp/e2588