NDLラボ、デジタル化資料から切り出した1行分の画像とテキストを対応付けた「OCR1行データセット」を公開

2021年11月9日、国立国会図書館(NDL)のNDLラボが、「OCR1行データセット」をGitHubで公開しました。

デジタル化資料から切り出した1行分の画像とテキストを対応付けた、光学文字認識(OCR)等の学習用データセットです。国立国会図書館デジタルコレクション上でインターネット公開している著作権保護期間の満了したデジタル資料の目次コマ画像と、目次のテキスト情報が用いられています。

2021年11月時点で2,339行分のデータが提供されており、今後追加予定です。

OCR1行データセットの公開について(NDL Lab, 2021/11/9)
https://lab.ndl.go.jp/news/2021/2021-11-09/

ndl-lab/ocr-ndloneline(GitHub)
https://github.com/ndl-lab/ocr-ndloneline

参考:
NDLラボ、振り仮名のデータセット「振り仮名注釈コーパス」(2種類)を公開
Posted 2021年9月28日
https://current.ndl.go.jp/node/44879

NDLラボ、ラベル付き画像データセット「NDL-ImageLabelデータセット」を公開
Posted 2021年7月2日
https://current.ndl.go.jp/node/44341

国立国会図書館、NDLラボで文字画像データセット(平仮名73文字版)を試験公開
Posted 2016年11月24日
https://current.ndl.go.jp/node/32980

国立国会図書館(NDL)、NDLラボのデータやプログラムをGitHubで公開
Posted 2019年8月26日
https://current.ndl.go.jp/node/38863

国立国会図書館、“NDLラボ”をスタート
Posted 2013年5月14日
http://current.ndl.go.jp/node/23494

※記事の一部を修正しました。(2021/11/10)