白黒二値画像とグレイスケール画像とで、OCRの正確さに差はあるか?(Nz)

ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト(ウェブサイト“Papers Past”で公開中)に関連して、デジタル化した画像をOCRを使ってテキスト化する際に、白黒二値(bitonial)画像とグレイスケール(greyscale)画像とで正確さにどの程度相違があるかを調査した結果を、D-Lib Magazine誌2009年3/4月号で発表しています。これによると、白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかったとのことで、プロジェクトチームは同館に対し、当面は白黒二値でのデジタル化を続けることと、継続的に関連情報を収集しデジタル化方針をレビューすることを勧告しています。

Tracy Powell ; Gordon Paynter. Going Grey?: Comparing the OCR Accuracy Levels of Bitonal and Greyscale Images. D-Lib Magazine. 2009, 15(3/4).
http://www.dlib.org/dlib/march09/powell/03powell.html

なお同号には、オーストラリア国立図書館による新聞デジタル化プロジェクトにおける、OCRの正確性改善に関する報告記事も掲載されています。

Rose Holley. How Good Can It Get?: Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs. D-Lib Magazine. 2009, 15(3/4).
http://www.dlib.org/dlib/march09/holley/03holley.html

D-Lib Magazine. 2009, 15(3/4)
http://www.dlib.org/dlib/march09/03contents.html

参考:
ニュージーランド国立図書館の電子新聞ウェブサイトがリニューアル
http://current.ndl.go.jp/node/6579