デジタル化の際にOCRで読めなかった文字を解決する方法(米国)

書籍の大規模デジタル化プロジェクトが急速に進展していますが、すべての書籍を完全にテキストデータに変換できるわけではありません。OCR(Optical Character Reader:光学文字読み取り機)で文字認識をする際、誤って読まれてしまう場合もあります。このような文字を、多くの人の力を借りて読み解こうという試みを、米国カーネギー・メロン大学の研究者が行っており、注目を集めています。

このプロジェクト“reCAPTCHA”は、ウェブブラウザ上でパスワードやコメントなどを入力する際に、文字を含んだ画像から読み解いた文字を一緒に入力してもらう“CAPTCHA”の仕組みを使うというものです。OCRがうまく読めなかった単語をCAPTCHAで用いる画像に使い、人間の目で正解を出してもらうわけです。reCAPTCHAでは、OCRが正しく認識した単語と認識できなかった単語を1組にして、2語を入力してもらいます。OCRが正しく認識できていた単語が正しく入力された場合、もう1語も正しく入力されたと見なすそうです。ちなみに、CAPTCHAは1日あたり全世界で6,000万も使われているそうです。

なお、このプロジェクトはInternet Archiveのデジタル化事業をサポートしているとのことです。

reCAPTCHA: Stop Spam, Read Books
http://recaptcha.net/

A new twist on anti-spam tech can help digitize books – Ars Technica
http://arstechnica.com/news.ars/post/20070525-anew-twist-on
-anti-spam-tech-can-help-digitize-books.html

Web registration tool digitizes books – CNN.com
http://www.cnn.com/2007/TECH/05/29/blather.to.books.ap/index.html