E1741 – 欧州のデジタル化新聞を集約するEuropeana Newspapers

カレントアウェアネス-E

No.293 2015.11.26

 

 E1741

欧州のデジタル化新聞を集約するEuropeana Newspapers

 

 2015年8月20日,欧州の文化遺産ポータルEuropeana(CA1785参照)のEuropeana Newspapersプロジェクトは,プロジェクトの最終報告書を公表した。本稿では,主にこの最終報告書に拠りながら,この大規模プロジェクトを紹介する。

◯概要
 Europeana Newspapersは,デジタル化された欧州の歴史的新聞をEuropeanaと欧州図書館(The European Library:TEL;CA1556参照)から利用可能にするプロジェクトである。2012年2月の開始から2015年3月の終了まで,活動期間は38か月に及んだ。欧州委員会(EC)の助成を受けており,プロジェクト全体の予算520万ユーロのうち410万ユーロはECからの助成である。プロジェクトには,ベルリン国立図書館(Staatsbibliothek zu Berlin)を中心とする18の機関が参加した。プロジェクト開始当初に掲げた目標は,次のとおりであった。 

  • 1,800万ページのデジタル化新聞のメタデータを,Europeanaに集約する
  • そのうち1,000万ページをフルテキスト化して全文検索可能にする
  • 新聞をオンラインで閲覧するための環境を改善するビューアを開発する
  • 専門家がデジタル化新聞の品質を評価しやすくするツールを開発する
  • ワークショップ等を通じて,関心を高め知識の交換を促進する 

◯メタデータの集約
 2015年3月末現在,当初の目標を上回る3,463タイトル,360万3,427号の2,098万4,128ページ分のデジタル化新聞のメタデータがEuropeanaに集約されている。1618年から1990年代までに刊行された新聞をカバーしており,過去のスペル表記も含めて16の言語の新聞が含まれている。各機関が提供するメタデータのEuropeana Data Modelへの変換も行われ,それによりEuropeanaにおいて異なるオブジェクト間の階層構造を表現することが可能となった。

◯フルテキスト化
 約1,200万ページのデジタル化新聞が,OCRやOLR(Optical Layout Recognition)などを使用してフルテキスト化され,TELから全文検索が可能となっている。

 2014年7月に行われたフルテキストの品質評価では,約80%の語が正確だったことを高品質と判断している。しかし一方で,レイアウトの分析性能には改善の余地があるともしている。

 短期間にこれだけの量の新聞をフルテキスト化するために,作業経験が豊富な機関が主体となって,きわめて明確で高度に標準化されたワークフローに従い作業を行った。

◯メタデータ
 METS(Metadata Encoding and Transmission Standard;CA1552参照),ALTO(Analyzed Layout and Text Object)といった標準をもとに,新聞のメタデータとその構造モデルを設計した。“ENMAP(Europeana Newspapers METS/ALTO Profile) model”と呼ばれるこのモデルは,次の2つの機能を実現している。 

  • デジタル化新聞を新聞閲覧用のソフトで閲覧・検索可能にすること
  • 新聞の深い階層構造をサポートする包括的なフォーマットを提供すること 

 ENMAPの基礎概念は,そのビューアである“structify”がサポートしており,今後開発される新聞のプロファイル標準となり得るものである。

 また,検索性向上のために人名・地名・組織名のような固有表現を識別し分類する固有表現抽出(Named Entity Recognition:NER)について,オランダ語,フランス語,ドイツ語の新聞で行った。また,検索結果の表示改善につながるような,曖昧性除去などによりNERの精度を高める取り組みも行った。

◯データの再利用
 このプロジェクトによるコンテンツの大半はパブリック・ドメインに属しており,それらのメタデータはクリエイティブ・コモンズのCC0ライセンスのもとで利用可能である。パブリック・ドメインのフルテキストは,分散型バージョン管理システムGitを使用したオープンなリポジトリに置かれる予定である。

 また,画像とGround Truthデータのリポジトリを構築した。Ground Truthデータは,OCRやレイアウト分析の理想的な結果を示したものである。データを提供する図書館のほとんどが自由な利用に同意しており,このプロジェクトの成果物の評価のみならず,OCRの性能向上等にも役立つだろう。

◯インターフェース
 歴史的新聞の検索・閲覧インターフェースは,画像・テキスト・メタデータなど多種多様で多言語のコンテンツに対応する必要がある。直感的で使いやすいものである一方,全文検索に加え,コンテンツの所蔵者・提供国,出版年,タイトルによる検索など,幅広い機能を提供しなければならない。

 まずインターフェースの骨格が考案され,2014年2月にプロトタイプが公開された。4月からユーザテストが行われ,5月には,専門家がユーザビリティを評価し改善点を提案,それらが実装され,12月にTELから正式に公開された。

◯欧州における新聞デジタル化の調査
 2012年には,欧州における新聞のデジタル化に関する調査も行い,2013年3月に結果を公表した。欧州の各種図書館のデジタル化新聞コレクションを調査した結果,20世紀の新聞を利用提供する際の著作権の問題が明らかになったほか,調査対象の図書館のうち,36%がフルテキスト化を行っていないためコンテンツの全文検索ができず,コンテンツの利活用の点では課題が山積していることを指摘している。

 そのほか,デジタル化新聞のフルテキスト化やその品質の評価に役立つ無料でオープンソースのツールが多数開発・提供されている。

 最終報告書は,デジタル化新聞の数量や閲覧・検索機能の点で,Europeana Newspapersポータルが,同様の新聞デジタル化プログラムである米国のChronicling America(E684参照)やオーストラリアのTroveに引けを取らないと自負している。プロジェクトの成果物はすでに利活用され始めており,またプロジェクトから得られた経験や教訓が生かされている取り組みもある。機能面でも,APIのプロトタイプが実装されテスト中であり,また検索・閲覧インターフェースの機能追加なども予定されている。今後の動向が注目される。

関西館図書館協力課・阿部健太郎

Ref:
http://www.europeana-newspapers.eu/
http://europeananewspapers.github.io/
http://www.europeana.eu/portal/
http://www.theeuropeanlibrary.org/tel4/
http://www.loc.gov/standards/mets/
http://www.loc.gov/standards/alto/
http://www.europeana-newspapers.eu/wp-content/uploads/2015/05/D5.3_Final_release_ENMAP_1.0.pdf
http://dbis-halvar.uibk.ac.at/dokuwiki/doku.php?id=main:structify
http://lab.kbresearch.nl/static/html/eunews.html
http://primaresearch.org/datasets/ENP
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana-newspapers.eu/usability-testing-results-for-our-historic-newspapers-browser/
http://www.theeuropeanlibrary.org/tel4/newspapers?view=discover
http://www.europeana-newspapers.eu/wp-content/uploads/2015/05/ENP-Deliverable_4.1_final.pdf
http://www.europeana-newspapers.eu/public-materials/tools/
https://github.com/EuropeanaNewspapers
CA1785
CA1556
CA1552
E684