E960 – BL新聞デジタル化プロジェクトでのOCRの正確性評価<文献紹介>

カレントアウェアネス-E

No.155 2009.08.05

 

 E960

BL新聞デジタル化プロジェクトでのOCRの正確性評価<文献紹介> 

 

Tanner, Simon. et al. Measuring Mass Text Digitization Quality and Usefulness.D-Lib Magazine. 2009, Vol.15, No.7/8.
http://www.dlib.org/dlib/july09/munoz/07munoz.html,(accessed 2009-08-03).

 本論文は,英国図書館(BL)で実施された,英国の19世紀の新聞をデジタル化するプロジェクト(CA1577E710参照)における光学式文字認識(OCR)の正確性を評価したものである。BLのプロジェクトでは,48タイトルの新聞から約200万ページがデジタル化され,テキスト検索が可能となった。著者らは,BLと英国情報システム合同委員会(JISC)の委託を受け,その約1%をサンプルとして用い,このプロジェクトでのOCRの正確性等を分析した。

 論文ではまず最初に,OCRの仕組み(読み取ったパターンをOCRエンジンの辞書と比較する等)を説明した後,評価基準には,文字の正確性(character accuracy)でなく,単語の正確性(word accuracy)という観点が重要であると述べる。さらに,単語の中でも,固有名詞等の,利用者の検索にとって重要な単語(significant word)を重視すべきであるとしている。

 検証では,対象の新聞記事について,キーボードから入力されたテキストを100%とした場合に,OCRによるテキストの何%が正確であるかを測定した。

 結果は,文字の正確性=83.6%,単語の正確性=78%,重要単語の正確性=68.4%であった。重要単語の正確性が低いのは,単語が比較的長いこと,辞書に登録されていないものがあること等が理由であると分析している。タイトル別に見ると,約3分の2のタイトルで文字の正確性は80%を超えていたが,単語の正確性が80%を超えたのは約半分のタイトルであり,重要単語の正確性が80%を超えたのは約4分の1のタイトルであった。

 OCRの正確性が利用者に与える影響について,著者らは,単語の正確性が80%を超えていれば,推測機能による補正等により,かなり高度の検索性能が実現できるが,80%を下回った場合には検索性能は低下する,としている。したがって,単語の正確性が78%であったBLの19世紀新聞プロジェクトについては,望ましい満足度を利用者に与えられないかもしれないとしている。

 最後に,大規模テキスト化のプロジェクトを行うにあたっては,OCRの正確性についてのしっかりした統計データが重要であるとし,この検証モデルを使用することにより,正確性評価の結果の分析やOCRの性能を最適化するための方策が得られると結んでいる。

Ref:
CA1577
E710