カーネギーメロン大学(Carnegie Mellon University)が中心となって進めている、OCRで認識できない大量の文字を、ウェブ認証技術を使って多くの人力で解読しようとするプロジェクト”reCAPTCHA”の1年間の成果が、8月14日付けの科学誌”Science”に掲載されています。
1年の間に、4万以上のウェブサイトに採用、約4億4千万以上の単語(書籍にすると17,600冊に相当)が解読され、その正解率は約99%に達したとのことです。
reCAPTCHA: Human-Based Character Recognition via Web Security Measures
http://www.sciencemag.org/cgi/content/abstract/1160379
人間の直感を利用したテキストの解読
http://www.sciencemag.jp/highlights.cgi?_issue=121#510
Computer Users Are Digitizing Books, Newspapers Quickly and Accurately With Carnegie Mellon Method
http://www.cmu.edu/news/archive/2008/August/aug14_recaptcha.shtml
ウェブの認証技術で書籍をデジタル化(報告) – 情報管理Webニュース
http://johokanri.jp/news/?p=819
正解率99% ネット認証技術、書籍のデジタル化に威力 – 朝日新聞
http://www.asahi.com/science/update/0823/TKY200808230207.html
参考:
E662 – OCRで識別できない大量の文字を,効率的に識別する方法?
http://current.ndl.go.jp/e662