PDFファイルはこちら
カレントアウェアネス
No.284 2005.06.20
CA1561
動向レビュー
デジタル資料保存リポジトリの動向
1. リポジトリという言葉について
デジタル資料を収集・保存する仕組みに対して,リポジトリ(repository)という語が最近よく使われる。これは辞書によれば,貯蔵所,集積所,倉庫などといった意味で,文書館を示すアーカイブ(archive),図書館を示すライブラリ(library)などよりも広い概念を表すと考えられる。しかし,デジタル・リポジトリ,デジタル・アーカイブ,デジタル・ライブラリなどといった場合,それらの意味範囲の違いは必ずしも明確ではない。また,デポジトリ(depository)という類義語もあり,特に日本人は混乱しやすい。
図書館界でリポジトリという言葉が特に注目されるようになったのは,2002年,SPARCが機関リポジトリ推進を打ち出して以来であると思われる。クロウ(Raym Crow)は機関リポジトリを「ある機関の教員,研究職員,学生により創造された知的生産物のデジタル・アーカイブ」(1)と定義している。ここに端的に現れているように,デジタル資料の保存システムという文脈では,リポジトリとアーカイブはほぼ同義で使用されていると言って差し支えない。また,デジタル・ライブラリやデジタル・デポジトリなどといった言葉も,筆者の知る限り,リポジトリやアーカイブと厳密に区別して用いられているわけではない。
したがって,本稿ではこれらの言葉の定義にこだわらず,何らかの形でデジタル資料を収集・保存するシステムを仮にリポジトリという言葉で呼ぶこととし,その動向について,PREMISの活動およびアンケート調査を中心に報告する。さらに,現在注目すべきプロジェクトを多数推進している情報システム合同委員会(JISC)の活動についても触れる。
2. PREMISの活動
2.1 PREMISとは
PREMIS(PREservation Metadata: Implementation Strategies)はOCLCと研究図書館グループ(RLG)が共同でスポンサーとなって設立したワーキンググループである。設立の経緯や活動状況は,ウェブサイト(2)で公表されている。また,半年を経過した時点での状況と今後の展望をラヴォア(Brian F. Lavoie)が論文にまとめている(3)。以下,これらに従ってPREMISのあらましを述べる。
OCLCとRLGは,2000年3月以来,共同でデジタル資料の長期保存問題に取り組んでおり,当時,2つのワーキンググループを設置した。一つは信頼できるデジタル・リポジトリの主要属性や責任を明確にすることを目指すもので,2002年5月,報告書(4)を出して活動を完了した。もう一つのグループは保存に必要なメタデータを研究するもので,保存システムに関する国際標準であるOAIS参照モデル(5)や先行プロジェクトを参考に具体的なメタデータ要素の枠組み規定を行い,2002年6月,当時としては保存メタデータの集大成ともいうべき報告書(6)を発表した(CA1489参照)。OCLCとRLGは,その直後,この報告書のフォローアップを行うべく,実践面での問題点をさぐる新たなワーキンググループPREMISを立ち上げた。
PREMISは2つのサブグループから成る。保存メタデータのコア要素を定めるグループと,実践の諸戦略を検討・評価するグループである。活動期間は当初1年間の予定だったが,どちらのサブグループもこれを延長している。
2.2 コア要素サブグループの活動
ガンター(Rebecca S. Guenther)の状況報告(7)によれば,コア要素サブグループのメンバーは,先の報告書で規定された保存記述に関するメタデータ要素を,実際に使われているものにマッピングする作業を行った。しかしながら,常に対応関係が取れるとは限らず,用法のガイダンスも不十分なことが判明した。ただ,この作業はさまざまなところで実際に用いられている要素の「公分母」を洗い出すには有効で,これがコア要素リストの出発点となったとのことである。
一方,技術的なメタデータに関しては,ファイル形式に依存するような詳細な技術メタデータは専門家の手にゆだねるとして検討対象からはずしている。その上で,メタデータが表す情報を5つのタイプのエンティティ(知的エンティティ,オブジェクト,エージェント,権利,イベント)に分ける抽象データモデルを作り上げ,これに従ってデータ辞書(コアとなるメタデータ要素の辞書)の構築を行っている。
このデータ辞書が,2005年5月に発表された最終報告書(8)の中核となっている。ここでは表形式で各メタデータ要素の定義や用例を記述している。記述の要素としては「意味単位」,「意味コンポーネント」,「定義」,「根拠」,「データの制約」,「例」などがある。意味単位というのがメタデータ要素名のことなのだが,実際のメタデータ規定から独立したものにするため,あえてこういう用語にしたようである。意味コンポーネントは意味単位を構成する下位の意味単位で,階層構造を持つことができるようになっている。
上述の5つのエンティティのうち知的エンティティはオブジェクトに具体化する知的内容であり,これを記述するメタデータはこの辞書では扱われていない。
オブジェクト・エンティティに属するメタデータはリポジトリに保存されているデジタル・オブジェクトの保存管理に関する情報を記述する。ここには「オブジェクトID (objectIdentifier)」,「保存レベル(preservationLevel)」,「サイズ(size)」,「フォーマット(format)」など多数の意味単位(メタデータ要素)が定義されている。
イベント・エンティティはオブジェクトの保存に関わる動きについての情報の集合である。意味単位として「イベントID(eventIdentifier)」,「イベント日時(eventDateTime)」,「イベント結果情報(eventOutcomeInformation)」などがある。
エージェント・エンティティは,権利管理や保存イベントに関わった人や組織やソフトウェアについての情報で,「エージェントID (agentIdentifier)」,「エージェント名(agentName)」,「エージェント・タイプ(agentType)」といった意味単位がある。
権利エンティティは権利に関するさまざまな情報で,「許諾文書(permissionStatement)」の下に「許諾文書ID (permissionStatementIdentifier)」,「許諾エージェント(grantingAgent)」,「許諾契約(grantingAgreement)」などの意味単位が設けられている。
2.3 実践戦略サブグループによるアンケート調査
実践戦略サブグループでは,2003年11月,実際にデジタル資料の長期保存に取り組んでいる機関に対するアンケート調査を開始した。2004年3月までに回答を得,電話での補足質問も行っている。5月には暫定的な中間報告がなされ,9月に詳細な報告書(9)が発表された(E258参照)。
調査には北米,ヨーロッパ,オセアニアの13か国から48の機関が回答している。国別では米国が22機関で半数近くを占め,次いで英国が9,オーストラリアが3(報告書p.12の国別集計表の2という数は明らかに誤り),あとの国は1か2である。機関の種別でみると,図書館が28,公文書館が7,美術館・博物館が3,その他11となっている。合計が49になるのは,カナダの国立図書館・公文書館(Library and Archives Canada)を図書館,公文書館の両方でカウントしているためである。
これらの機関すべてがリポジトリを実際に運用しているわけではなく,全体の3割にあたる15機関はまだ計画段階である。試験運用あるいは部分運用のものも多い。どの段階にあるかという質問には22機関が本運用段階と答えているが,他の項目の回答からみて,きちんと方策を実施しているのはその半分,というのがワーキンググループの判断である。つまり,全体としてデジタル資料保存に関する経験の蓄積は非常に浅く,今回の調査結果によって何か結論や指針を導き出すのは難しいということになる。
ともあれ,報告書からうかがえる最近のリポジトリの動向は次のようなものである。
2.4 アンケート調査にみるリポジトリの動向
リポジトリの使命に関しては,ほとんどのリポジトリが保存とアクセスという2つの目標を設定しており,保存のみとしているところは少ない。それ以外にセルフアーカイビングなど学術機関リポジトリ(E323参照)としての使命を記述しているところもある。
資金に関しては,9割のリポジトリが組織の運営予算から出ているとしているが,半数近くが2つ以上の資金源を持ち,組織の内外から補助金を受けている。
受入資料の種類は,機関の種類によって異なる。図書館では自館でデジタル化した資料やウェブ情報資源を受け入れる割合が高い。資料受入に際して正式な契約書を取り交わしている機関はおよそ半分である。契約書の内容はさまざまだが,コンテンツの用途に関する記述が多く,保存メカニズムの詳細に触れたものは少ない。
資料へのアクセスに関しては,半数以上がオープンアクセスと回答しているが,そのほとんどがアクセス制限の選択肢も合わせてチェックしている(複数回答可)。これは,オープンアクセスを標榜しているところでも,資料の種類によってはさまざまなアクセス制限があるという事情を反映している。制限の種類としては,特定コミュニティに制限が6割,指定のトリガー・イベント(手続き操作)を経てというのが4割強,オンサイト(来館利用)が4割弱で,課金しているところは1割以下と少ない。オンライン・アクセスなしというのも3割ある。
リポジトリのモデルに関しては,多くの機関が少なくとも部分的にOAIS参照モデルに準拠しているとしている。しかし何をもって準拠とするのかは必ずしも明確ではない。OAIS参照モデルはリポジトリ構築の出発点として役立つという意見もあるが,不十分だとの声もある。
保存の方策に関しては,多くの機関が複数の手法を採用している。ビット・レベルでの保存,受入時の制限,正規化,マイグレーション,マイグレーション・オン・デマンドといった手法が多く使われている。エミュレーションを採用しているところは1割に過ぎないが,将来的に計画しているところはもう少しある。
使われているソフトウェアは商業ソフトであったり,オープンソースのフリーソフトであったり,自主開発だったりと多様。多くのリポジトリでは複数のソフトを組み合わせて使っている。
記録されているメタデータも多種多様だが,権利,来歴,技術,管理,構造に関するもの,それに記述メタデータは8割前後が記録している。記録方式としてはMETS(CA1552参照)の採用が多い。静止画像のメタデータ標準であるZ39.87は図書館が多く採用している。既存のメタデータ・スキーマに独自の拡張を施して使っている例も多い。
メタデータの作成方法は寄託者が付与,プログラムにより自動作成,リポジトリのスタッフが付与といった方法があり,どれも7割程度の採用率である。ここでは可能な限りの自動作成が望まれている。
メタデータの蓄積方法としては,リレーショナル・データベースに格納しているものが一番多い。次いでコンテンツに添付,XMLや他のデータベースに格納といった方法が取られている。しかし,6割のリポジトリが2つ以上の方法を採用しており,そのほとんどがデータベースに格納すると同時にコンテンツにも添付するというやり方である。
以上のような調査結果の分析から,この報告書ではとりあえず次のような方策を奨励している。
- メタデータはデータベースに蓄積すると同時にコンテンツデータにも添付して二重に保持する。データベースは高速な検索のため,コンテンツへの添付は,リポジトリの外にコンテンツが出ても,それだけで自己定義できるようにするためである。
- メタデータの記述方式としてはMETSを使う。静止画像メタデータに関してはZ39.87/MIXを使う。
- OAIS参照モデルをリポジトリ設計の枠組みあるいは出発点として使う。ただしこのモデルを超える機能やサービスが追加できるような柔軟性を保つ。
- リポジトリ内に複数の版およびそのすべてに対するメタデータを保持する。特にオリジナル版を保持し,将来,より良い保存方法が見つかった場合に備える。
- デジタル保存はまだ発展途上なので,複数の保存手法を採用すべきである。
3. JISCの継続的アクセスおよびデジタル保存戦略
JISCは2002年10月,『継続的アクセスおよびデジタル保存戦略2002-2005』(10)およびその実行計画を承認した。ビーグリー(Neil Beagrie)によれば,これにより3年間で600万ポンドの資金提供が確約されたとのことである(11) 。
JISCでは,プログラムと呼ばれる単位で,関連するプロジェクトをまとめて管理している。デジタル保存および記録管理プログラム(12)の下で電子出版物アーカイビングプロジェクト(13)が行われていることについてはCA1501で報告されているが,このプログラムでは,現在,他に8つのプロジェクトに資金を提供している。その中でもデジタル・キュレーション・センター(14)(E178参照)は,それ自体はリポジトリではなくて,単独の機関や学界では解決できない問題に取り組むという類例のない試みで,今後の活動が注目される。
また,機関におけるデジタル保存と資産管理支援プログラム(15)があり,機関の情報戦略の一環としての長期保存戦略モデルや評価ツールの作成,機関リポジトリ・ソフトウェアへの長期保存機能の追加などを目標とした11のプロジェクトが行われている。
さらに関連するプログラムとして,機関における記録管理支援(16),デジタル・リポジトリ・プログラム(17),機関情報資源アクセスへのフォーカス(18)などがあり,それぞれいくつものプロジェクトを抱えている。多数のプログラム,プロジェクトが錯綜している感があり,全体像が把握しづらいが,今後,各プロジェクトから続々と成果が発表されることと思われる。
常磐大学人間科学部:栗山 正光(くりやま まさみつ)
(1) Crow, Raym. The Case for Institutional Repositories: A SPARC Position Paper. 2002. (online), available from < http://www.arl.org/sparc/IR/ir.html >, (accessed 2005-04-04).
Crow, Raym.(栗山正光訳). 機関リポジトリ擁護論.(オンライン),入手先< http://www.tokiwa.ac.jp/~mtkuri/translations/case_for_ir_jptr.html >, (参照2005-04-04).
(2) OCLC. “PREMIS (PREservation Metadata: Implementation Strategies)”. (online), available from < http://www.oclc.org/research/projects/pmwg/ >, (accessed 2005-04-04).
(3) Lavoie, Brian F. Implementing Metadata in Digital Preservation Systems: The PREMIS Activity. D-Lib Magazine. 10(4), 2004. (online), available from < http://www.dlib.org/dlib/april04/lavoie/04lavoie.html >, (accessed 2005-04-04).
(4) Trusted Digital Repositories : Attributes and Responsibilities : An RLG-OCLC Report. Mountain View, RLG, 2002, vi, 62 p. (online), available from < http://www.rlg.org/longterm/repositories.pdf >, (accessed 2005-04-04).
(5) Consultative Committee for Space Data Systems. Reference Model for an Open Archival Information System (OAIS), Blue Book. 2002, 147p. (online), available from < http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdf >, (accessed 2005-04-04).
(6) OCLC/RLG Working Group on Preservation Metadata. A Metadata Framework to Support the Preservation of Digital Objects : Preservation Metadata and the OAIS Information Model. Dublin, OCLC, 2002, 51p. (online), available from < http://www.oclc.org/research/projects/pmwg/pm_framework.pdf >, (accessed 2005-04-04).
(7) Guenther, Rebecca. PREMIS − Preservation Metadata Implementation Strategies Update 2: Core Elements for Metadata to Support Digital Preservation. RLG DigiNews. 8(6), 2004. (online), available from < http://www.rlg.org/en/page.php?Page_ID=20492#article2 >, (accessed 2005-04-04).
(8) OCLC/RLG PREMIS Working Group. Data Dictionary for Preservation Metadata : Final Report of the PREMIS Working Group. Dublin, OCLC, 2005, 237p. (online), available from < http://www.oclc.org/research/projects/pmwg/premis-final.pdf >, (accessed 2005-05-26).
(9) OCLC/RLG PREMIS Working Group. Implementing Preservation Repositories for Digital Materials: Current Practice and Emerging Trends in the Cultural Heritage Community.Dublin, OCLC, 2004, 66 p. (online), available from < http://www.oclc.org/research/projects/pmwg/surveyreport.pdf >, (accessed 2005-04-06).
(10) Beagrie, Neil. A Continuing Access and Digital Preservation Strategy for the Joint Information Systems Committee (JISC) 2002-2005. 2002. (online), available from < http://www.jisc.ac.uk/index.cfm?name=pres_continuing >, (accessed 2005-04-06).
(11) Beagrie, Neil. The Continuing Access and Digital Preservation Strategy for the UK Joint Information Systems Committee (JISC). D-Lib Magazine. 10(7/8), 2004. (online), available from < http://www.dlib.org/dlib/july04/beagrie/07beagrie.html >, (accessed 2005-04-06).
(12) “Digital Preservation and Records Management”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=programme_preservation >, (accessed 2005-04-07).
(13) “Archiving E-Publications”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=project_epub_archiving >, (accessed 2005-04-07).
(14) Digital Curation Centre. (online), available from < http://www.dcc.ac.uk/ >, (accessed 2005-04-07).
(15) “Supporting Digital Preservation and Asset Management in Institutions”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=programme_404 >, (accessed 2005-04-07).
(16) “Supporting Institutional Records Management”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=programme_supporting_irm >, (accessed 2005-04-07).
(17) “Digital Repositories Programme”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=programme_digital_repositories >, (accessed 2005-04-07).
(18) “Focus on Access to Institutional Resources (FAIR) Programme”. JISC. (online), available from < http://www.jisc.ac.uk/index.cfm?name=programme_fair >, (accessed 2005-04-07).
栗山正光. デジタル資料保存リポジトリの動向. カレントアウェアネス. 2005, (284), p.12-15.
http://current.ndl.go.jp/ca1561