英国図書館、インドの貴重書や冊子体目録の自動テキスト化を目的としたコンペティションを開催

2017年3月22日、英国図書館(BL)が、同館の“Two Centuries of Indian Print”プロジェクトで現在デジタル化中のインドの貴重書や冊子体目録の、正確で自動でのテキスト化の方法を見つける事を目的としたコンペティションを開催すると発表しています。

米・スタンフォード大学のPRIMA Research Labと連携し、2017年11月10日から15日にかけて京都で開催される第14回文書解析・理解国際会議(International Conference on Document Analysis and Recognition:ICDAR)において行なうもので、優勝者は会議中に発表されるとのことです。

課題は2つあり、1つ目は、ベンガル語で書かれた19世紀の印刷本の自動テキスト化で、2つ目は、1867年から1967年までにインドで出版された図書が出版地や価格とともに記載されている“Quarterly Lists”と呼ばれる冊子体目録の自動テキスト化です。

British Library Launches OCR Competition for Rare Indian Books(BL,2017/3/22)
http://blogs.bl.uk/digital-scholarship/2017/03/british-library-launches-ocr-competition-for-rare-indian-books.html

関連:
ICDAR2017
http://u-pat.org/ICDAR2017/

英国図書館(BL)、ベンガル語の1,000冊の本・20万ページをデジタル化してオンラインで公開
Posted 2015年11月13日
http://current.ndl.go.jp/node/29967

英国図書館、ベンガル語の図書4,000冊、80万ページ分をデジタル化
Posted 2016年12月20日
http://current.ndl.go.jp/node/33131