2020年8月5日、人文学オープンデータ共同利用センター(CODH)が、近代日本の文書のための光学文字認識(OCR)システム“Kindai OCR”を公開したことを発表しました。
同システムの開発にあたっては、OCRに関する基盤技術の開発とデータ公開を進める「n2iプロジェクト」のもと構築され、CODHが公開している画像データセット「近代雑誌データセット」を用いて機械学習が行われました。
ソースコードはオープンソースとしてGitHub上で公開されています。
ニュース
http://codh.rois.ac.jp/news/
※2020年8月5日付で、「近代日本の文書のためのOCRシステムとして、Kindai OCRを公開しました。」と掲載されています。
Kindai OCR
http://codh.rois.ac.jp/software/kindai-ocr/
参考:
人文学オープンデータ共同利用センター、近代雑誌データセット『東洋学芸雑誌』を公開
Posted 2017年8月7日
https://current.ndl.go.jp/node/34483
人文学オープンデータ共同利用センター(CODH)、日本古典籍くずし字データセットに字形データを大幅に追加:データセットを活用した無料のAIくずし字OCRサービスも公開
Posted 2019年11月12日
https://current.ndl.go.jp/node/39489