2023年7月12日に、国立国会図書館(NDL)が、OCR処理プログラム「NDLOCR」のver.2を、NDLラボ公式GitHubで公開しました。
NDLOCRは、NDLがデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。
2023年4月に公開したver.1が、全文検索用途が主目的の開発であるのに対し、ver.2は、視覚障害者等の読み上げ用途にも利用できるよう、読み上げ順序の推定等の機能の追加や文字認識性能の改善を行っています。
また、ver.2には、2022年度にNDLが外部委託して開発したver.2.0と、2023年4月~6月にNDLが改善作業を実施したver.2.1があります。
NDLOCR ver.2の公開について(NDLラボ, 2023/7/12)
https://lab.ndl.go.jp/news/2023/2023-07-12/
NDLOCR ver.2.1(GitHub)
https://github.com/ndl-lab/ndlocr_cli
NDLOCR ver.2.0(GitHub)
https://github.com/ndl-lab/ndlocr_cli/tree/ver.2.0
参考:
国立国会図書館、OCR処理プログラムと学習用データセットを公開 [2022年05月16日]
https://current.ndl.go.jp/car/46134
E2588 – 2022年度NDLデジタルライブラリーカフェ<報告>
カレントアウェアネス-E No.454 2023.03.23
https://current.ndl.go.jp/e2588