2022年5月31日、国立国会図書館(NDL)のNDLラボが、「NDL Ngram Viewer」とパブリックドメインOCR学習用データセットの公開を発表しました。
「NDL Ngram Viewer」は、NDLによるデジタル化資料のOCRテキスト化事業の成果物である全文テキストを活用した実験サービスです。著作権保護期間が満了した図書資料約28万点を対象に、キーワードの出版年代毎の出現頻度の可視化・比較が行えます。
学習用データセットは、NDLが2021年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラム研究開発事業において、OCRモデルの性能改善のために作成されたデータセットの内、著作権保護期間の満了した資料から作成されたものです。2022年5月末時点で、3,997画像分を公開しています。
NDL Ngram Viewerの公開及びOCR学習用データセットの公開について(NDLラボ, 2022/5/31)
https://lab.ndl.go.jp/news/2022/2022-05-31/
NDL Ngram Viewer(NDLラボ)
https://lab.ndl.go.jp/service/ngramviewer/
pdmocrdataset-part2(GitHub)
https://github.com/ndl-lab/pdmocrdataset-part2
参考:
NDLラボ、ウェブページ「令和3年度OCR関連事業について」を公開
Posted 2022年5月31日
https://current.ndl.go.jp/node/46220
国立国会図書館、OCR処理プログラムと学習用データセットを公開
Posted 2022年5月16日
https://current.ndl.go.jp/node/46134
E2154 – 国立国会図書館,次世代デジタルライブラリーを公開
カレントアウェアネス-E No.372 2019.07.11
https://current.ndl.go.jp/e2154