カレントアウェアネス
No.275 2003.03.20
CA1489
動向レビュー
デジタル情報保存のためのメタデータに関する動向
1.はじめに
デジタル情報資源の急増に伴い,その長期保存体制の欠如が深刻な問題になってきている。デジタル情報はコピーを繰り返しても内容が劣化しないことから,一度デジタル化しさえすれば半永久的な保存が可能だという期待が大きかった。しかしながら,デジタル情報を記録する磁気ディスク,CD,DVD等の媒体の寿命は紙に及ばないとみなされており,さらにそれ以前に,急激な技術革新によって媒体の規格やデータのフォーマットがすぐに廃れてしまう。気付いた時には読み取りに必要なハードウェアあるいはソフトウェアが入手できなくなってしまっている,といったことも容易に起こり得る。
こうした状況に対して,デジタル情報の長期保存に関する研究が様々な形で行われているが,中でも盛んなのが保存のためのメタデータの枠組み作りである。ここでのメタデータは情報資源を発見したり検索したりするためのものではなく,情報資源の保存に役立つ様々な情報を記録しておくものである。以下,この保存のためのメタデータに関する動向について述べる。
2.OAIS参照モデル
デジタル情報の長期保存システム構築に関する有力な指針として,「開放型アーカイブ情報システムのための参照モデル(Reference Model for an Open Archival Information System : OAIS)(以下OAIS参照モデル)」(1)がある。これはNASA, NASDAはじめ世界各国の宇宙開発機関で組織する宇宙データシステム諮問委員会(Consultative Committee for Space Data Systems)が策定したもので,1999年5月にRed Book, Issue 1という形で原案が示され,2001年7月に改訂版(Red Book, Issue 2)が出され,2002年に国際標準規格(ISO 14721:2002)として承認された。これはデジタルデータにとどまらず,情報一般の保存に関するあらゆる側面を扱った総合的な内容を持ち,アーカイブの責任,情報パッケージの概念,機能エンティティとそれらの相互関係,保存戦略,さらにはアーカイブ間の連携に至るまで詳細に論じたものである。2000年,Red Book, Issue 1の段階で,わが国にも簡単に紹介されている(2)。
「OAIS参照モデル」では,保存対象となるデータを関連するメタデータと組み合わせた情報パッケージ(Information Package)が取扱いの単位となる。情報パッケージは,情報生産者からアーカイブへの提出,アーカイブ内部での保管,アーカイブから消費者への配布といった段階に応じて,提出用情報パッケージ(Submission Information Package: SIP),保管用情報パッケージ(Archival Information Package: AIP),配布用情報パッケージ(Dissemination Information Package: DIP)の3種類に分けられている。おのおのの情報パッケージは内容情報(Content Information)と保存記述情報(Preservation Description Information)からなり,それらを結びつけるパッケージ情報(Packaging Information)が付与される。この外側にいわば目録情報である記述情報(Descriptive Information)が作成される。内容情報はもともとのデータであるビット列(データ・オブジェクト)と,それを解釈・提示するための表現情報(Representation Information)からなる。保存記述情報には内容情報の由来を示す来歴(Provenance),他の情報との関係を示すコンテクスト(Context),内容情報を同定するためのID情報である参照(Reference),内容情報が変更されていないことを示す固定性(Fixity)の4種類があるとされる。
こうした情報モデルに基づき,いくつものデジタル情報保存プロジェクトにおいて,具体的なメタデータの項目や表記法が検討されている。
3.「OAIS参照モデル」に基づくメタデータの規定
デジタル情報保存のためのメタデータを具体的に規定する先駆的な試みの例として,CEDARS(CURL Exemplars in Digital Archives)プロジェクトがある。このプロジェクトでは,2000年,「OAIS参照モデル」(当時はまだ規格案の段階)に準拠したメタデータの要素(elements)案を公表し,広く意見を求めた(3)。この案では要素を示すのみで表記法やデータの持ち方には触れていない。また,「OAIS参照モデル」で言うパッケージ情報,記述情報は扱わず,保存記述情報と内容情報に検討の範囲を限っている。著作権者にアーカイブへの登録を促すため,特に知的所有権関係の項目を充実させたとしている。さらに,メタデータは変化する可能性があり(たとえば権利関係など),その維持管理がアーカイブの主要な管理機能の一つである,という重要な指摘がある。
OCLCとRLGは,2000年3月,保存メタデータに関するワーキンググループ (OCLC/RLG Working Group on Preservation Metadata)を発足させた。このWGは翌2001年に現状レビューの白書(4),さらに2002年6月,「OAIS参照モデル」に基づいたメタデータを規定した報告書(5)を発表した。この報告書で提案されているメタデータ要素は,CEDARS,オーストラリア国立図書館(National Library of Australia : NLA),ヨーロッパ寄託図書館ネットワーク(Networked European Deposit Library: NEDLIB),OCLCといった4つの組織の先行プロジェクトにおけるメタデータを総合的に検討し,さらにWG独自の要素も加えて出来上がったものである。CEDARS同様,パッケージ情報と記述情報の検討は除外されている。その理由として,パッケージ情報は保存対象データとメタデータを結びつけるだけのものであり,記述情報は資源発見のためのメタデータで保存用メタデータの範囲外であるという説明がなされている。
下の図に要素の概略を示す(インデントで階層構造を表す。ただしすべての階層,項目を記してはいない)。
|
この報告書に示されたメタデータの枠組みは,現時点では,最も総合的かつ先進的なものだと言えるが,それでも決定版というわけではない。たとえば,保存戦略としてエミュレーションを選択した場合は,ハードウェア環境などに関してここに規定された以上に詳細な情報が必要となるだろうし,適用対象情報資源の粒度(granularity)や,項目が必須か,あるいは繰り返し可能か,などについては今後の検討課題としている。
4.メタデータ記録方式としてのXML
以上のようなメタデータの枠組みは,メタデータの要素を定めたものであって,実際にそれをどういう形で記録するかはまた別の問題である。もちろん個々の保存機関がそれぞれ決定することであり,たとえば特定メーカーのデータベースの形式を採用することも十分考えられる。しかし,保存機関同士が連携する上において,またメタデータ自体の長期的な保存を考えた場合,世界的に広く通用する標準的な形式を採用した方が当然有利である。あるいは,内部では独自形式で持つにしても,データ交換用に標準形式への変換を行えるシステムを採用することも考えられる。
標準的なメタデータ記録方式として最も注目されているのがXML(eXtensible Markup Language,T33参照)である。XMLはW3C(World Wide Web Consortium)が定めた文書構造記述のためのタグ付け言語だが,このXMLによるメタデータ記録方式の標準を定めたものとして,メタデータ記号化・伝送標準(Metadata Encoding & Transmission Standard: METS)がある。これはMaking of America II(MOA2)プロジェクトの経験をもとに電子図書館連合(Digital Library Federation)が策定したものである。METSは以下の5つの主要セクションから成る(6)。
- 記述メタデータ(タグ:< dmdSec >)…外部の記述メタデータへの参照あるいは記述の埋め込み。
- 管理メタデータ(タグ:< amdSec >)…ファイルがどのように作成されたかとか知的所有権に関する情報を記録。OAIS参照モデルの保存記述情報はこのセクションに入ると考えられる。
- ファイル・グループ(タグ:< fileGrp >)…関連するすべてのファイルをリストアップ。
構造マップ(タグ:< structMap >)…デジタル資料を構成するファイルの階層構造を記述。 - 動作(タグ:< behaviorSec >)…実行可能な動作と内容データとを結びつける。
さらに,それぞれのセクション内の表記法が詳しく規定されている。METSの最大の特徴は構造マップで,これにより,異なった種類のファイルで構成された複雑なデジタル資料の構造を表現することができる。
他方,XMLはメタデータに限らず,内容データ・オブジェクトを含めたデジタル情報全体を保存するためのフォーマット,あるいは保存データを新しいハードウェア,ソフトウェア環境に移行するためのデータ交換フォーマットとしても有力視され,研究が進んでいる。そうしたプロジェクトの一つがオランダのデジタル保存テストベッド(Digital Preservation Testbed)で,電子メールをXML形式に変換して保存する実験を行っている(7)。また,XMLとデジタル情報の保存に関して概観した白書(8)を発表している。
5.デジタル・アーカイブでの事例
北テキサス大学図書館(The University of North Texas Libraries)では,連邦政府や州政府と共同で行政文書のデジタル化プロジェクトを行っているが,保存のためのメタデータ項目は,やはりOAIS,CEDARS,NLA,OCLC/RLG等により提案されたものを組み合わせて規定している(ただしOCLC/RLGが国家標準規格を定めるまで,としている)(9)。また,メタデータ作成・編集ツールとしてNoteTab(10)というソフトウェアの試用を行っている。
数学の分野では,ドイツのゲッチンゲン大学,米国のコーネル大学,中国の清華大学などの図書館が参加して電子数学アーカイブ・ネットワーク・イニシアチブ(Electronic Mathematics Archives Network Initiative: EMANI)という共同プロジェクトが行われている。このうち清華大学図書館が,保存のためのメタデータの枠組みを策定し,発表している(11)。項目は記述,権利,技術,ソース,デジタル化プロセスといったモジュールに分けられ,それぞれが階層構造を持つ。記録方式としてMETSを採用しており,数学に限らず全分野に適用が可能だとしている。
常磐大学人間科学部:栗山 正光(くりやま まさみつ)
(1) Consultative Committee for Space Data Systems. Reference Model for an Open Archival Information System (OAIS). Blue Book, Issue 1 (CCSDS 650.0-B-1). 2002, (online), available from < http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf >, (accessed 2003-01-06).
(2) 大島薫. 電子出版物の保存. 情報の科学と技術. 50(7), 2000, 383-388.
(3) The Cedars Project Team and UKOLN. Metadata for digital preservation : The Cedars project outline specification. 2000, 33p. (online), available from < http://www.leeds.ac.uk/cedars/MD-STR~5.pdf >, (accessed 2003-01-06).
(4) OCLC/RLG Working Group on Preservation Metadata. Preservation Metadata for Digital Objects : A Review of the State of the Art. 2001, 49p. (online), available from < http://www.oclc.org/research/pmwg/presmeta_wp.pdf >, (accessed 2003-01-08).
(5) OCLC/RLG Working Group on Preservation Metadata. Preservation Metadata and the OAIS Information Model : A Metadata Framework to Support the Preservation of Digital Objects. 2002, 51p. (online), available from < http://www.oclc.org/research/pmwg/pm_framework.pdf >, (accessed 2003-01-08).
(6) Metadata Encoding & Transmission Standard. “METS: an Overview & Tutorial”. (online), available from < http://www.loc.gov/standards/mets/METSOverview.html >, (accessed 2003-01-08).
(7) Potter, Maureen. XML for Digital Preservation : XML Implementation Options for E-Mails. (online), available from < http://www.digitaleduurzaamheid.nl/bibliotheek/docs/email-xml-imp.pdf >, (accessed 2003-01-08).
(8) Testbed Digitale Bewaring. “XML and digital preservation : Digital Preservation Testbed white paper”. (online), available from < http://www.digitaleduurzaamheid.nl/bibliotheek/docs/white-paper_xml-en.pdf >, (accessed 2003-01-08).
(9) Alemneh, Daniel Gelaw et al. A Metadata Approach to Preservation of Digital Resources : The University of North Texas Libraries’ Experience. First Monday. 7(8), 2002. (online), available from < http://firstmonday.org/issues/issue7_8/alemneh/index.html >, (accessed 2003-01-08).
(10) Notetab homepage. (online), available from < http://www.notetab.com/ >, (accessed 2003-01-08)
(11) Niu, Jinfang. A Metadata Framework Developed at the Tsinghua University Library to Aid in the Preservation of Digital Resources. D-Lib Magazine. 8(11), 2002. (online), available from < http://www.dlib.org/dlib/november02/niu/11niu.html >, (accessed 2003-01-08).
栗山正光. デジタル情報保存のためのメタデータに関する動向. カレントアウェアネス. 2003, (275), p.13-16.
http://current.ndl.go.jp/ca1489