米国国立公文書館(NARA)、2019年6月以降にオンライン目録に登録されたJPG・PDF形式の記録の全文検索が可能に:OCRでテキストデータを抽出

2019年9月9日、米国国立公文書館(NARA)は、2019年6月以降にオンライン目録に登録されたJPG・PDF形式の記録の全文検索が可能になったと発表しています。

これまで同館のオンライン目録は、同館のアーキビストによって入力された情報、もしくは、同館の市民アーキビストにより入力されたタグや文字起こしされたテキストのみ検索することができましたが、OCRを用いてテキストデータを抽出することで、上記資料の全文検索が可能となったものです。

現在、2019年6月以前に登録された記録にOCR処理を実行するための調査を行なっています。

一方で、OCRの技術は完全ではないとし、人間によるテキスト化のほうが正確であることが分かっていることから、引き続き市民アーキビストの協力も求めています。

New Search Feature: Optical Character Recognition (OCR)(NARA,2019/9/9)
https://narations.blogs.archives.gov/2019/09/09/new-search-feature-optical-character-recognition-ocr/

参考:
CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA
カレントアウェアネス No.304 2010年6月20日
http://current.ndl.go.jp/ca1718

米国国立公文書館(NARA)、12の地域事務所を巡回し、市民アーキビストがテキスト化・タグ付けを行なう“Citizen Archivist Road Trip”を実施
Posted 2018年8月20日
http://current.ndl.go.jp/node/36503