人文学オープンデータ共同利用センター(CODH)、近代雑誌OCR学習用データセットを公開:Kindai OCRはバージョン2に更新

2023年7月13日、人文学オープンデータ共同利用センター(CODH)が、近代雑誌OCR学習用データセットを公開したことを発表しました。また、Kindai OCRがバージョン2に更新されたことも併せて発表しました。

近代雑誌OCR学習用データセットは、近代雑誌データセットに収録されている画像データを対象に、1行ごとに翻刻テキストと座標情報を対応させたデータセットであるとしています。発表時点での規模は、『国民之友(第1号-第27号)』および『明六雑誌(第1号-第43号)』の画像データ1,985コマから切り出した5万9,465行であり、4,935文字種、147万2,004文字のテキストを含むとしています。

また、Kindai-OCRは、近代雑誌データセットを用いて学習した近代日本語文書向けのOCRシステムであり、バージョン2に更新され、ディープラーニング(Transformer)の導入により認識精度が向上したとしています。

ニュース
http://codh.rois.ac.jp/news/
※2023年7月13日付で、「Kindai-OCRをバージョン2に更新し、ディープラーニング(Transformer)の導入により認識精度が向上しました。またKindai-OCRやその他の機械学習に利用できる近代雑誌OCR学習用データセットも公開しました。4,935文字種、1,472,004文字のテキストを含む、画像データ1,985コマから切り出した59,465行のデータセットです。」と掲載されています。

近代雑誌OCR学習用データセット
http://codh.rois.ac.jp/modern-magazine/dataset/

Kindai OCR
http://codh.rois.ac.jp/software/kindai-ocr/

参考:
人文学オープンデータ共同利用センター、近代雑誌データセット『東洋学芸雑誌』を公開 [
2017年08月07日]
https://current.ndl.go.jp/car/34483

人文学オープンデータ共同利用センター(CODH)、近代日本の文書のためのOCRシステム“Kindai OCR”を公開 [2020年08月11日]
https://current.ndl.go.jp/car/41713