米国国立公文書館(NARA)、2019年6月以降にオンライン目録に登録されたJPG・PDF形式の記録の全文検索が可能に:OCRでテキストデータを抽出
2019年9月9日、米国国立公文書館(NARA)は、2019年6月以降にオンライン目録に登録されたJPG・PDF形式の記録の全文検索が可能になったと発表しています。
これまで同館のオンライン目録は、同館のアーキビストによって入力された情報、もしくは、同館の市民アーキビストにより入力されたタグや文字起こしされたテキストのみ検索することができましたが、OCRを用いてテキストデータを抽出することで、上記資料の全文検索が可能となったものです。
現在、2019年6月以前に登録された記録にOCR処理を実行するための調査を行なっています。
一方で、OCRの技術は完全ではないとし、人間によるテキスト化のほうが正確であることが分かっていることから、引き続き市民アーキビストの協力も求めています。
New Search Feature: Optical Character Recognition (OCR)(NARA,2019/9/9)
https://narations.blogs.archives.gov/2019/09/09/new-search-feature-optical-character-recognition-ocr/
参考:
CA1718 - 動向レビュー:電子化の現場からみたOCRの動向 / denshikA
カレントアウェアネス No.304 2010年6月20日
http://current.ndl.go.jp/ca1718
米国国立公文書館(NARA)、12の地域事務所を巡回し、市民アーキビストがテキスト化・タグ付けを行なう“Citizen Archivist Road Trip”を実施
Posted 2018年8月20日
http://current.ndl.go.jp/node/36503
- 参照(1194)
- 印刷用ページ
類似の記事
- 米国国立公文書館(NARA)、レコードグループ単位で電子化の進捗状況や調査ツールを案内する“Record Group Explorer”を公開
- 米国国立公文書館(NARA)、オンラインカタログで1860年から1862年までの日米間の外交記録“Japan Regarding the Treaty of Yedo, 1860-1862”を公開:公開されたデジタル画像の翻刻・英訳への支援を呼びかけ
- 米国国立公文書館(NARA)、12の地域事務所を巡回し、市民アーキビストがテキスト化・タグ付けを行なう“Citizen Archivist Road Trip”を実施
- OCRによって作成されたテキストの修正作業をゲームで行うプロジェクト(フィンランド)
- CA1718- 動向レビュー:電子化の現場からみたOCRの動向 / denshikA