ProQuest社が、米国のテキサスA&M大学のInitiative for Digital Humanities, Media, and Cultureによるプロジェクト“Early Modern OCR Project(eMOP)”に参加すると発表しました。
eMOPは、ProQuest社以外にもGale-Cengage Learning社など複数の機関が協力し、アンドリュー・W・メロン財団から734,000ドルの助成も受けています。
プロジェクトにおいて、ProQuest社は、15~17世紀の英国や欧州で刊行された書籍のデジタル化画像を登載したデータベース“Early English Books Online(EEBO)”および“Early European Books”へのアクセスを提供します。これらのコンテンツを利用して、eMOPでは、近代に使用された書体のデータベースの作成や、それらの書体を認識可能なOCRエンジンの開発などを行います。eMOPの作業スケジュールによると、当面の目標として、2013年9月までに2,370万ページ分の資料を93%の精度で認識できるようにするとされており、その後、クラウドソーシングも活用しつつ、精度を高めていく計画になっています。
Early Modern OCR Project
http://emop.tamu.edu
eMOPの作業スケジュール(PDF:3ページ)
http://idhmc.tamu.edu/projects/Mellon/Gantt.pdf
Joins Forces with TAMU Scholars to Make 15th Century Books Behave Like Born-Digital Text(ProQuest 2012/11/6付けプレスリリース)
http://www.proquest.com/en-US/aboutus/pressroom/12/20121106.shtml
参考:
E015 – スウェーデン王立図書館,17世紀の新聞の全文検索を可能に
http://current.ndl.go.jp/e015