2019年7月10日、世界最大規模の機械学習コンペプラットフォームKaggleで、くずし字認識に関する全世界的なコンペティション「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」の開催が発表されました。
このコンペティションは、情報・システム研究機構のデータサイエンス共同利用基盤施設に所属する人文学オープンデータ共同利用センター(CODH)、同機構の国立情報学研究所(NII)・人間文化研究機構の国文学研究資料館(国文研)の主催により、2019年7月中旬から10月中旬まで開催されます。
開催の目的として、深層学習(機械学習)の活用を中心とした近年のAIの飛躍的な発展を取り入れることで、新方式のくずし字OCRの研究開発が進む可能性が高まっていることを背景に、くずし字OCRの性能向上に向けたアイデアをオープンに募集することが挙げられています。
コンペティションでは、国文研とCODHが共同整備し公開中の「くずし字データセット」改良版が提供され、コンペ参加者は与えられた画像内に書かれた全てのくずし字を認識して出力する「くずし字OCRアルゴリズム」を期間内に開発するという流れで進められます。上位入賞したアルゴリズムについてはコンペ後自由に使えるよう公開される予定です。
コンペティションで使用されるKaggleは、全世界300万人以上のAI研究者・技術者が参加する情報学分野では世界的に知名度の高いプラットフォームで、日本の組織によるコンペ開催は3例目、研究目的での開催は初めてのことです。また人文系データを対象とするコンペはKaggleの歴史の中でも今回が初めてとなります。
コンペティションの詳細はKaggleウェブサイト上でコンペ開始日(2019年7月中旬予定)から公開されます。コンペ後、5位までの入賞者について、2019年11月11日に開催されるCODHのシンポジウム「日本文化とAI」で表彰式が行われる予定です。
【プレスリリース】「くずし字」の認識に世界のAI研究者・技術者が挑戦(2019/07/10)(データサイエンス共同利用基盤施設,2019/7/10)
https://ds.rois.ac.jp/post-3451/
「くずし字」の認識に世界のAI研究者・技術者が挑戦―全世界的コンペティションをKaggleで7月から開催―(NII,2019/7/10)
https://www.nii.ac.jp/news/release/2019/0710.html
Kaggleコンペティション:くずし字認識(CODH)
http://codh.rois.ac.jp/competition/kaggle/
参考:
日本古典籍くずし字データセット文字種(くずし字)一覧の個々の文字が元の古典籍画像上で確認できるように
Posted 2019年5月8日
http://current.ndl.go.jp/node/38116
「日本古典籍データセット」「日本古典籍くずし字データセット」の収録データが拡充
Posted 2019年1月31日
http://current.ndl.go.jp/node/37494
立命館大学アート・リサーチセンター(ARC)、凸版印刷株式会社との共同研究により「くずし字解読支援・指導システム」を開発
Posted 2019年5月24日
http://current.ndl.go.jp/node/38228