カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発

2015年7月3日、凸版印刷株式会社は、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表しました。この技術は、テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能になったとのことです。
この技術による、くずし字で記された古典籍のテキストデータ化サービスが、2015年夏より試験的に開始される予定とのことです。

凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発
~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~(凸版印刷、2015/07/03)
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html

参考:
凸版印刷と日本ファイリングが、貴重資料の長期保存と利活用事業で協業
Posted 2014年7月11日
http://current.ndl.go.jp/node/26560

凸版印刷、精度99.99%以上の「文献・資料の高精度全文テキスト化システム」を開発
Posted 2013年7月4日
http://current.ndl.go.jp/node/23868