カレントアウェアネス-E
No.3 2002.11.06
E015
スウェーデン王立図書館,17世紀の新聞の全文検索を可能に
17〜18世紀に発行された自国の新聞をデジタル化し一般公開する「北欧デジタル新聞図書館 (TIDEN)」プロジェクトに,北欧各国の国立図書館等が協力して取り組んでいる。
スウェーデン王立図書館(KB)は,この一環として,17世紀の新聞をマイクロフィルムからデジタル化し,ウェブで公開している( http://poi.kb.se/rware/doc_explorer_home.html )。OCR(光学式文字読み取り装置)を用いて画像情報をテキスト化し,全文検索機能も付与している。
資料が劣化していたり,華麗なゴシック体の文字が使用されているため,OCRでは正確に文字が認識されない場合があるが,人手による訂正は行わず,パターン認識技術を用いた検索ソフトウェアを用いることによって,これを補っているのが特徴である。
Ref:
http://www.managinginformation.com/news/content_show_full.php?id=847
http://tiden.kb.se/Project.htm