2020年7月9日付で、米国のコネチカット大学が、同大学図書館と同大学工学部による、機械学習を用いた手書き文字の認識技術開発の取組に関する記事を公開しています。
同館が運営するデジタルアーカイブ“Connecticut Digital Archive”では、歴史的資料がオンラインで提供されています。しかし、手稿は光学文字認識(OCR)処理を行えないため、デジタル化後も検索ができない状況であり、米国の図書館等のネットワークLYRASISからの助成を受けて、同館は解決に取り組んでいます。
同館はマサチューセッツ歴史協会や同大学工学部等と協力し、22種類の文字の1万6,000枚以上の画像を2019年の夏に作り、そのパターンを識別するための、ニューラルネットワークを構築するアルゴリズムを作成しました。結果として、22文字すべてを対象とした際には86パーセント、4文字を対象とした際には96パーセント以上の正確さで、文字を認識できたとしています。
取組の目標としては、データセットの拡充、ニューラルネットワークの調整、改良版の一般公開が挙げられています。
UConn Library, School of Engineering to Expand Handwritten Text Recognition(University of Connecticut, 2020/7/9)
https://today.uconn.edu/2020/07/uconn-library-school-engineering-expand-handwritten-text-recognition/#
参考:
米・LYRASIS、資金助成プログラム“Catalyst Fund”の2020年の助成対象プロジェクトを発表
Posted 2020年7月8日
https://current.ndl.go.jp/node/41452
CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA
カレントアウェアネス No.304 2010年6月20日
https://current.ndl.go.jp/ca1718