E286 – 手書きの文書の検索に挑む(米国)

カレントアウェアネス-E

No.51 2005.01.19

 

 E286

手書きの文書の検索に挑む(米国)

 

 マサチューセッツ州立大学アマースト校のマンマサ(R. Manmatha)助教授らは,手書きの歴史的文書を翻刻することなく検索できる検索エンジンを開発している。現在のところ,手稿はテキストに書き起こすか,索引付けしなければ検索対象にはならず,それには手間もコストもかかるため,多くの歴史的文書はオンラインでは検索できない。

 開発中のプロトタイプは,米国議会図書館(LC)が所蔵するワシントン初代大統領コレクション中の手稿約1,000ページのデジタル画像から,テキストの文字列で該当部分を検索できるシステムとなっている。システムの概要は,まず手稿100ページを使って,単語を抽出し手動でインデックスを振ることで,特定の単語とその筆跡のイメージをマッチングさせたデータ集合を作成する。その後,約1,000ページの手稿から自動的に切り出された単語イメージについて,それぞれデータ集合内の全てのテキスト文字列との類似度を算出させておく,というものである。データ集合の網羅性の問題や人による筆跡の違いなど課題は多いが,改良されていけばこれまで検索対象にならなかった歴史的文書の利用を促進する可能性をこの技術は秘めている。

Ref:
http://www.iht.com/articles/2004/12/30/business/ptnext.html
http://ciir.cs.umass.edu/~trath/prj/hw_retr/demo_intro.html
http://ciir.cs.umass.edu/pubfiles/mm-341.pdf