2019年11月11日、人文学オープンデータ共同利用センター(CODH)は、日本古典籍くずし字データセットに字形データを大幅に追加し、文字数が684,165字から1,086,326字となったことを発表しました。
データセットに対してクリーニングを行い、一部の新字を旧字に統合した結果、文字種については4,645種から4,328種に減少したとあります。
あわせて、同データセットを活用したAIくずし字OCRサービスである「KuroNetくずし字認識サービス」も公開されました。IIIFに準拠した画像を対象として、多文字くずし字OCR機能を提供するものです。
「KuroNetくずし字認識サービス」のページでは、利用には登録が必要であること、利用は無料であるが他者の利用をさまたげるような利用状況となった場合は制限を行う可能性があること等、利用方法と制限に関する説明が掲載されています。
ニュース(CODH)
http://codh.rois.ac.jp/news/
※2019年11月11日付けのニュースとして、日本古典籍くずし字データセットへの字形データの大幅追加と、KuroNetくずし字認識サービスの公開が発表されています。
日本古典籍くずし字データセット(CODH)
http://codh.rois.ac.jp/char-shape/
KuroNetくずし字認識サービス(CODH)
http://codh.rois.ac.jp/kuronet/
参考:
「日本古典籍データセット」「日本古典籍くずし字データセット」の収録データが拡充
Posted 2019年1月31日
https://current.ndl.go.jp/node/37494
日本古典籍くずし字データセット文字種(くずし字)一覧の個々の文字が元の古典籍画像上で確認できるように
Posted 2019年5月8日
https://current.ndl.go.jp/node/38116
人文学オープンデータ共同利用センター(CODH)、IIIF Curation Viewerに新機能「アノテーションビューモード」を追加:新機能を体験できるサービス「江戸マップβ版」「くずし字データセット閲覧ビューア」も公開
Posted 2019年11月6日
https://current.ndl.go.jp/node/39443
E2179 – AI技術を取り入れた「くずし字翻刻学習・指導システム」
カレントアウェアネス-E No.377 2019.10.10
https://current.ndl.go.jp/e2179