CA1577 – 動向レビュー:新聞資料のデジタル化をめぐる動き / 大山聡

PDFファイルはこちら

カレントアウェアネス
No.286 2005.12.20

 

CA1577

動向レビュー

 

新聞資料のデジタル化をめぐる動き

 

はじめに

 新聞はその発行当時の出来事を知るための貴重な資料である。しかし新聞紙は劣化しやすく長期保存が難しい。その内容へのアクセスを将来にわたって確保するために,紙面を撮影しマイクロフィルムを作成することで,内容の長期保存と利用を両立させてきた。一方,近年の情報技術の進歩により,デジタル化した資料を,インターネットを利用して距離的制約を越えて提供することが技術的に可能となり,また,画像の歪み等を補正する技術や,デジタル画像上の文字をテキストデータとして抽出する光学文字認識(Optical Character Recognition:OCR)技術の進歩によって,テキストデータを用いて記事の全文検索機能を提供することも可能となってきている。したがって,ウェブ上で記事検索を行い,該当部分の紙面画像を閲覧するということも可能であり,利用者のニーズも大きくなっている。こうしてこれまで利用しにくかった資料へのアクセスを容易にし,多くの利用者にサービスを提供するために,新聞資料のデジタル化を進める国が増えてきている。

 本稿では,新聞資料のデジタル化に関する動きについて,北欧諸国,英国,フランス,米国での国立図書館の新聞デジタル化計画を紹介する。

 各プロジェクトの紹介に進む前に各国の新聞デジタル化の手法を見てみると,原資料を直接スキャンする方法(フランス)よりも,原紙を撮影してマイクロフィルムを作成し,マイクロフィルムからスキャンを行う方法(北欧諸国,英国,米国)が主流になっている。これは,状態の良い資料を好条件で撮影すれば,マイクロフィルムからスキャンして得られる画像も十分高品質になる,という認識によるものである。またデジタル化する新聞の年代については,著作権の問題などから,19世紀以前のものを優先的にデジタル化していることが各プロジェクトに共通している。

 

1. 北欧デジタル新聞図書館 (TIDEN)(1)

 TIDENプロジェクトは,ストックホルム王立図書館(スウェーデン),ノルウェー国立図書館,オーフス国立・大学図書館(デンマーク),ヘルシンキ大学図書館(フィンランド国立図書館)の4館が参加して1998年にスタートした。2001年にはウェブでの公開が開始されている。各図書館のサイトで自国の新聞を提供している(E015参照)。

 このプロジェクトは,北欧科学情報協力機構(Nordic Council for Scientific Information:NORDINFO)の資金援助を受けて行われている(CA1377参照)。

 TIDENでは,大量の資料のマイクロフィルムからのデジタル変換および全文検索の方法に関する調査研究をプロジェクトのねらいとした。フィルムの縮小率やカメラの違い,スキャンの解像度,ゴシック体とローマン体の比較,OCRソフトの差異などを検証している。プロジェクトの成果やそれをもとにしたマイクロ化およびデジタル化作業のガイドラインが,プロジェクトやIFLAのウェブサイトで公開されている(2)

 オンラインで閲覧可能な紙面数は,40万ページからスタートして,現在は160万ページに及ぶという。検索・閲覧のインターフェイスは各国異なるものを採用している。ヘルシンキ大学図書館,ストックホルム王立図書館,ノルウェー国立図書館では全文検索が可能である。

 

2. 英国新聞1800-1900年プロジェクト (British Newspapers 1800-1900 Project:BN)(3)

 英国図書館(BL)は2004年から,歴史的に重要な新聞をウェブ上で提供し,学術コミュニティが記事の全文検索を行えることを目的として,英国新聞1800-1900年プロジェクト(BN)を開始した。著作権保護期間を終了した英国の全国紙・地方紙・地域紙最大200万ページ,約100億語のデジタル化を行うこと,ウェブから優れた検索・閲覧インターフェイスを用いてコレクションに自由にアクセスできる環境を提供すること,を目標としている。

 このプロジェクトは,情報システム合同委員会 (JISC) のデジタルプログラムの一つとして,200万ポンド(約4億円)の助成を受けて行われている(4)

 2004年はデジタル化する新聞およびデジタル化用のマイクロフィルムの評価を行った。約40タイトルの最終リストを選択,デジタル化を行う業者を決定した。2006年には資料準備,マイクロ化と平行してデジタル化及びウェブサイト構築を行い,9月にウェブサイトの第一弾を公開する運びになっている。

 マイクロフィルムをスキャンしデジタル化するにあたっては,対象資料の選択では研究者など利用者代表で構成される委員会を設置して資料の評価・選択を依頼することが,また,資料を準備する段階では,重複するページや異版,欠けたページ等の十分なチェック,資料状態の調査,号(issue)レベルのメタデータの収集など,実際のデジタル化作業の前に十分な準備をしておくことが,デジタル化を成功させるために有効であるとしている。

 プロジェクトでは,グレースケール,解像度300dpiでスキャンしたデータをTIFFフォーマットで保存する。利用者にはTIFFおよびJPEGフォーマットで提供される。またBNでは,ウェブサイトでの提供用としてグレースケールの文字部分を白黒2値に変換し,変換後はふたたびグレースケールとして保存する「グレースケールハイブリッド」を開発中である。

 BNではプロジェクト成功の鍵として,以下の4点を挙げている。(1)全体を通じて,このプロジェクトに対して最終的な責任を持つ「プロジェクト委員会(Project Board)」と高等教育・継続教育の代表者との緊密な関係を保つこと,(2)法律的な助言やプロジェクト委員会の利用者代表の見解を考慮しながら,デジタル化するコンテンツを早期に特定すること,(3)調達プロセスを厳しく管理して優良な納入業者を選択すること,(4)強力な管理チームを構築すること。

 

3. フランス国立図書館(BnF)の取り組み:歴史的な日刊全国紙のデジタル化計画(5)

 歴史的な日刊全国紙をデジタル化するフランス国立図書館による計画が2004年に策定され,2005年からの5年計画としてスタートした。

 この計画は,フランスの全国紙21紙およびその付録6紙を,創刊号から1944年分までデジタル化するものである。総ページ数は,新聞27タイトル(創刊号から1944年まで)で約320万ページになる。

 その第一段階として,現在も刊行が続いている3紙(La Croix, L’Humanite, Le Figaro)およびLe Tempsの計4紙のデジタル化が予定されている。プログラムの第一段階では,利用に供されるのはデジタル画像のみになるようである。デジタル化された紙面はTIFFフォーマットで保存する。提供はJPEGフォーマットで行い,BnFのウェブサイト内のデジタルライブラリーGallica(6)で公開される。

 プログラムの第二段階では,作成したデジタル画像をOCR処理することで,全文検索などテキストからのアクセスを可能にするとしている。

 第一段階のデジタル化にはおよそ350万ユーロ(約5億円)の予算が計上されている。一方,第二段階のテキスト抽出に進むに当たって,BnFは財源をサポートするスポンサーやパートナーを求めている。

 最初の成果物は2006年の公開を予定している。デジタルコレクションには,BnFのオンライン目録BN-Opale Plusを通じて,またはGallicaデータベースを直接検索することで利用できるようになる予定である。

 今後の展開として,地方日刊紙や貴重なコレクションなどへデジタル化の対象を拡大してゆく方針である。稀少かつ歴史的価値の高いコレクションとして,BnFと現代国際資料・文書館(Bibliotheque de Documentation Internationale Contemporaine:BDIC) との分担によるtrench newspapers(第一次世界大戦中に東フランスの最前線で軍人によって書かれた新聞)のデジタル化が計画されている。

 また,欠号やデジタル化が困難な状態の資料の補完,地方紙デジタル化に関するフランス国内の他図書館や新聞社との協力,および,ケベック州などのフランス語圏,欧州デジタル図書館(E390参照)に関連するヨーロッパ圏との国際的な協力をさらに進めてゆくとしている。

 

4. 全米電子新聞プログラム (National Digital Newspaper Program:NDNP)(7)

 1836年から1922年に発行された,すべての州および米国領土の歴史的に重要な新聞をデジタル化する計画がNDNPである。全文検索可能なデータベースを構築し,米国議会図書館(LC)がその管理を行う。

 NDNPは,全米新聞プログラム(United States Newspaper Program:USNP)の基盤の上に立って行われている。USNPは全国人文科学基金(National Endowment for the Humanity:NEH)の支援のもと,全米で発行されたあらゆる新聞の保存を目的に,新聞の目録化およびマイクロ化を進めるプログラムである(8)。NDNPはこのUSNPの発展版にあたるといえよう。

 計画では,全米の新聞の総合目録 “Newspaper Title Directory”およびタイトルの歴史的背景,紙面画像,フルテキストをウェブで提供する。デジタル化に用いたマイクロフィルムはLCで保管される。

 LCでは,第一期の対象機関を公募し,カリフォルニア大学リバーサイド校,フロリダ大学図書館,ケンタッキー大学研究財団,ニューヨーク公共図書館,ユタ大学,ヴァージニア図書館の6機関が選ばれた。

 第一期として各機関は,1900年から1910年の間にその州で発行された英字新聞各10万ページをデジタル化し,2006年9月にウェブ公開する予定である。

 紙面画像データはグレースケール,解像度400dpi,TIFFフォーマットで保存し,JPEG2000およびPDFフォーマットで提供される。LCに提出する各ファイルおよびメタデータの仕様は詳細に指定され,NDNPのウェブサイトに公開されている。

 Newspaper Title Directoryは,逐次刊行物の総合目録CONSERおよびUSNPが作成してきた全米新聞総合目録Newspaper Union Listを再利用して作成・公開される。Newspaper Title DirectoryからNDNPのデジタルコンテンツや新聞社のウェブサイトへのリンクの実現も考慮に入れている(9)

 

おわりに

 本稿では4つのプロジェクトについて紹介してきた。各国とも積極的に歴史的に貴重な新聞のデジタル化,全文検索を実現し,研究者をはじめ国民へ貴重な歴史資料に対する容易なアクセスを提供しつつある。

 さて日本はどうであろうか。国立国会図書館では,新聞コンテンツの保存のためのマイクロ化は,明治から戦前期にかけてほぼ終了しているものの,これらのデジタル化の計画はまだない。計画が実際に動き出す場合でも,全文検索を前提とすると技術や予算等多くの困難が予想される。しかし利用者の新聞記事検索に対する要望は非常に大きい。いつの日かこの要望に応えられる日が来るであろうか。

主題情報部新聞課:大山 聡(おおやま さとし)

 

(1) TIDEN Project. (online), available from < http://tiden.kb.se/ >, (accessed 2005-10-15).

(2) TIDEN Project. Reports. (online), available from < http://tiden.kb.se/Reports.htm >, (accessed 2005-10-15).
IFLA. “Microfilming for Digitisation and Optical Character Recognition”. (online), available from < http://www.ifla.org/VII/s39/broch/microfilming.htm >, (accessed 2005-10-15).

(3) British Library. “Newspapers Digitisation Project: British Newspapers 1800-1900”. (online), available from < http://www.bl.uk/collections/britishnewspapers1800to1900.html >, (accessed 2005-10-15).
なお英国図書館では,2001年に新聞デジタル化のパイロット事業を実施,その成果をウェブで公開している。
Deegan, Marilyn et al. “The British Library Newspaper Pilot”. (online), available from < http://digitalcooperative.oclc.org/digitize/BritishLibraryNewspaper.html >, (accessed 2005-10-15).
British Library. “The British Library Online Newspaper Archive (Pilot Version)”. (online), available from < http://www.uk.olivesoftware.com/ >, (accessed 2005-10-15).

(4) Joint Information Systems Committee. “The JISC Digitisation Programme”. (online), available from < http://www.jisc.ac.uk/index.cfm?name=digitisation_home >, (accessed 2005-10-15).
Joint Information Systems Committee. “British Newspapers 1800-1900”. (online), available from < http://www.jisc.ac.uk/index.cfm?name=digitisation_bln >, (accessed 2005-10-15).
Joint Information Systems Committee. “Press Release: Old News is Good News as Newspaper Archive is Planned for the Web”. 2004-06-09. (online), available from < http://www.jisc.ac.uk/index.cfm?name=press_release_newspaper >, (accessed 2005-10-15).

(5) Bibliotheque nationale de France. “Deux siecles de journaux en ligne”. (online), available from< http://www.bnf.fr/pages/presse/dossiers/num_presse.pdf >, (accessed 2005-10-15).

(6) Bibliotheque Nationale de France. Gallica. (online), available from < http://gallica.bnf.fr/ >, (accessed 2005-10-15).

(7) Library of Congress. “National Digital Newspaper Program”. (online), available from < http://www.loc.gov/ndnp/ >, (accessed 2005-10-15).

(8) National Endowment for the Humanities. “United States Newspaper Program”. (online), available from < http://www.neh.gov/projects/usnp.html >, (accessed 2005-10-15).
Library of Congress. “United States Newspaper Program”. (online), available from < http://www.loc.gov/preserv/usnppr.html >, (accessed 2005-10-15).

(9) Thomas, Deborah. “National Digital Newspaper Program – Enhancing Access to American Newspapers”. 2005. (online), available from < http://www.loc.gov/ndnp/pdf/081105_oclc_ndnp.pdf >, (accessed 2005-10-15)

 

Ref.

Bremer-Laamanen, Majlis. “Connecting to the past ? newspaper digitisation in the Nordic Countries”. 2005. (online), available from < http://www.ifla.org/IV/ifla71/papers/019e-Bremer-Laamanen.pdf >, (accessed 2005-10-15).

 

Shaw, Jane. “10 Billion Words: The British Library British Newspapers 1800-1900 Project Some guidelines for large-scale newspaper digitisation”. 2005. (online), available from < http://www.ifla.org/IV/ifla71/papers/154e-Shaw.pdf >, (accessed 2005-10-15).

King, Edmund. “Digitisation of Newspapers at the British Library”. The Serials Librarian. 49(1/2), 2005, 165-181.

(上と同じ内容) (online), available from < http://www.bl.uk/about/cooperation/pdf/newsplanarticle.pdf >, (accessed 2005-10-15).

Sanz, Pascal. “Les developpements en matiere de periodiques electroniques a la Bibliotheque Nationale de France: la numerisation de la presse quotidienne francaise du milieu du XIXeme siecle a 1944”. 2005. (online), available from < http://www.ifla.org/IV/ifla71/papers/141f-Sanz.pdf >, (accessed 2005-10-15).

(英語訳)Sanz, Pascal. “Development of electronic periodicals at the Bibliotheque nationale de France : digitisation of French daily newspapers from Mid 19th Century to 1944”. (online), available from < http://www.ifla.org/IV/ifla71/papers/141e_trans-Sanz.pdf >, (accessed 2005-10-15).

“La BNF va mettre en ligne des archives de la presse”. Le Monde, 2005-02-18.

IFLA-PAC. News “International Newspaper Conference: Asia and the Pacific”. International Preservation News. (35), 2005. 32. (online), available from < http://www.ifla.org/VI/4/news/ipnn35.pdf >, (accessed 2005-10-15).

 


大山聡. 新聞資料のデジタル化をめぐる動き. カレントアウェアネス. (286), 2005, 13-16.
http://www.ndl.go.jp/jp/library/current/no286/CA1577.html