米国国立公文書館(NARA)が所蔵史料の「人力OCR」をクラウドソーシングで行うプロジェクトを試行開始
米国国立公文書館(NARA)が、同館の所蔵史料をテキストに書き写す作業をユーザに対して呼びかける試行プロジェクト“National Archives Transcription Pilot Project”を開始したそうです。これは、同館が最近立ち上げた“Citizen Archivist Dashboard”の一環だとされています。同プロジェクトでは、18世紀後半から20世紀にかけての300点の資料(合計1,000ページ程度)が用意されているそうです。各文書は、作業の難度に応じて「初級」「中級」「上級」の3種類に分類・色分けされ、また、何ページまで作業が終わったかも分かるようになっています。
National Archives Transcription Pilot Project (NARA)
http://transcribe.archives.gov/
Citizen Archivist Dashboard (NARA)
http://www.archives.gov/citizen-archivist/
Introducing the National Archives Transcription Pilot Project! (NARAtions 2012/1/25付け記事)
http://blogs.archives.gov/online-public-access/?p=7171/
参考:
南北戦争期の日記資料をクラウドソーシングでテキスト化するプロジェクト“Civil War Diaries Transcription Project”
http://current.ndl.go.jp/node/18444
オックスフォード大学ボードリアン図書館、楽譜のデジタル化作業にクラウドソーシングを採用へ
http://current.ndl.go.jp/node/18058
- 参照(4687)
- 印刷用ページ
類似の記事
- E1313- 米国国立公文書館,開かれた政府の実現へ向けて活動継続
- 米国国立公文書館(NARA)、12の地域事務所を巡回し、市民アーキビストがテキスト化・タグ付けを行なう“Citizen Archivist Road Trip”を実施
- 米アイオワ大学図書館、17-20世紀の手書きレシピコレクションをクラウドソーシングでテキスト化するプロジェクトを開始
- 米国国立公文書館(NARA)、大統領図書館ごとの電子化の進捗状況や利用可能なコンテンツ等を案内する“Presidential Library Explorer”を公開
- 米国国立公文書館(NARA)、2019年6月以降にオンライン目録に登録されたJPG・PDF形式の記録の全文検索が可能に:OCRでテキストデータを抽出