国立国会図書館、OCR処理プログラムと学習用データセットを公開

2022年4月25日に、国立国会図書館(NDL)が、OCR処理プログラムであるNDLOCRと、パブリックドメインOCR学習用データセットをNDLラボのGitHubで公開しました。

NDLOCRは、NDLが2021年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。

学習用データセットは、NDLが2021年度にLINE株式会社に委託して実施したデジタル化資料のOCRテキスト化事業において、OCRモデルの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットです。2022年4月末時点で、2,713画像分を公開しています。

OCR処理プログラム及び学習用データセットの公開について(NDLラボ, 2022/4/25)
https://lab.ndl.go.jp/news/2022/2022-04-25/

ndl-lab/ ndlocr_cli(GitHub)
https://github.com/ndl-lab/ndlocr_cli

pdmocrdataset-part1(GitHub)
https://github.com/ndl-lab/pdmocrdataset-part1

参考:
NDLラボ、資料画像のタグ推定モデルを公開
Posted 2021年11月18日
https://current.ndl.go.jp/node/45199

NDLラボ、ラベル付き画像データセット「NDL-ImageLabelデータセット」を公開
Posted 2021年7月2日
https://current.ndl.go.jp/node/44341

NDLラボ、「次世代デジタルライブラリー」の画像検索対象の拡大・機能追加等を実施
Posted 2020年9月1日
https://current.ndl.go.jp/node/41883

「NDLラボ」のウェブサイトと「次世代デジタルライブラリー」がリニューアル
Posted 2020年3月31日
https://current.ndl.go.jp/node/40658

E2154 – 国立国会図書館,次世代デジタルライブラリーを公開
カレントアウェアネス-E No.372 2019.07.11
https://current.ndl.go.jp/e2154