国立国会図書館、「次世代デジタルライブラリー」への古典籍資料のテキストデータ投入を完了:「NDL古典籍OCR」のソースコード等を公開

2023年1月24日、国立国会図書館(NDL)のNDLラボは、「次世代デジタルライブラリー」への古典籍資料約8万点のテキストデータ投入が完了したと発表しました。

これにより、著作権保護期間が満了した古典籍と図書資料約35万点の全文検索が可能になったとあります。また、NDLが所蔵するデジタル化済みの古典籍資料のテキスト化のために開発された「NDL古典籍OCR」のソースコードとデータセットも公開されています。

次世代デジタルライブラリーへの古典籍資料のテキストデータ投入完了及び「NDL古典籍OCR」のソースコード等の公開について(NDLラボ, 2023/1/24)
https://lab.ndl.go.jp/news/2022/2023-01-24/

次世代デジタルライブラリー
https://lab.ndl.go.jp/service/tsugidigi/

ndl-lab/ndlkotenocr_cli(GitHub)
https://github.com/ndl-lab/ndlkotenocr_cli

ndl-lab/ndl-minhon-ocrdataset(GitHub)
https://github.com/ndl-lab/ndl-minhon-ocrdataset

参考:
国立国会図書館、「次世代デジタルライブラリー」の全文検索対象を古典籍資料に拡大:江戸期以前のくずし字資料等約6万点が追加 [2022年11月01日]
https://current.ndl.go.jp/car/47094

E2533 – NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
カレントアウェアネス-E No.442 2022.09.01
https://current.ndl.go.jp/e2533

E2154 – 国立国会図書館,次世代デジタルライブラリーを公開
カレントアウェアネス-E No.372 2019.07.11
https://current.ndl.go.jp/e2154