カレントアウェアネス
No.273 2002.09.20
CA1467
Domain.uk−英国のウェブ・アーカイビング−
インターネット上のウェブ情報の収集・保存(ウェブ・アーカイビング)には,既に米,豪,仏,蘭,加,北欧等の多くの国が取り組んでいるが,2002年3月,英国図書館(British Library:BL)が本格的な事業開始を表明したことにより,世界的な国立図書館が顔をそろえることとなった。本稿では,BL欧米コレクション部長のベリー(Stephen Bury)氏の発言等をもとに,ウェブ・アーカイビング・パイロット・プロジェクト「Domain.uk」を紹介する。
2001年5月に開始された本プロジェクトは,6か月間実施された。プロジェクト名からは誤解を生じやすいが,ukドメインを有するサイトを全て収集していたわけではない。対象ウェブサイトは,英国の歴史的または文化的に重要なものとし,100のウェブサイトを選択していた。その際,選択基準として,大手のサイト,データベース,個人のサイトで画像,テキスト,音声の著作権が明確でないものは除外された。また,政府系サイトや登録制のサイト等も除外された。
将来は,選択基準に合致したものであれば,保存されるべきサイトを一般人が推薦できるような計画も進められている。そのための推薦フォームがBLのウェブサイト上に設置される予定である。
実際に収集されたサイトは,2001年5〜6月の総選挙関連サイトを手始めに,遺伝子組み替え作物や口蹄疫の関連サイト,美術,音楽,哲学のサイト等である。中には,著名アーティストの非公式サイト等も含まれている。その他,2001年9月11日の米国同時多発テロやアフガニスタンの内戦等,同時代の大事件に関するサイトも対象となった。
収集の手順および結果は以下のとおりである。自動収集ソフトウェアには,Bluesquirrel社製whackが使用されていた。今回のプロジェクトでは,まずウェブの管理者や発行者に電子メールを送付し,ダウンロードの許諾を得,その後,サイトのリンク数や規模を測定し,蓄積するという手順がとられた。再収集はおよそ3週間ごとに実施された。
その結果,約2万ページが収集された。それに基づいて,2001年3月と12月のウェブの状況を比較すると,以下のような変化が見られた。
更新されていないサイトは8%,URLの変更は4%,消滅したサイトは5%あった。その他,参考になる数値として,サイト自体が過去の情報を残して蓄積しているものが1%から5%に増加した。障害者を含め万人に使いやすい仕様を備えているサイトも,6%から10%に増加した。
蓄積されたデータ量を比較すると,HTMLフォーマットのものは98%から95%に減少し,サイトが有するリンク数は708から832へと増加した。
当面の課題は,蓄積されたデータを閲覧に供することである。プロジェクト中は,利用に供することはできなかったが,今後は,各ウェブサイト管理者等と再交渉して閲覧に供する方向が目指されている。
また,収集対象サイトの数を1万に増やし,ゆくゆくはBLの「電子図書館装置(Digital Library Store) 」上で蓄積したいとの考えが示されている。
さらに,こうした選択的収集と並んで,半年ごとのスナップショットにより,その名称の通り全てのukドメインの収集に乗り出そうとしている。
ベリー氏とそのチームは,閲覧機能を含め,1万規模のサイトの選択的収集のため,60万ポンドを文化・メディア・スポーツ省に要求している。プロジェクト継続のためには,より多額の財源と時間が必要である。
彼は,「インターネットを学者が利用することが増え,平均的な博士論文は,過去のある日にアクセスしたウェブサイトを20から30も引用している。その論拠はやがて消滅する。その論文が真実を論述しているか確認する方法は皆無となる。」と危惧している。
また,ベリー氏は,アーカイビングのためのスナップショットを許容するよう,法定納入制度改正を希望している。しかし,英国では,ネットワーク系電子情報の法定納入義務制度はまだ完全ではない。1998年までの一連の検討後,自発的納入の実施要綱が制定された。電子書籍(e-books)については,2000年1月から法定納入義務が課せられた。
BLは,もっと迅速に行動しなければ,より多くの国家的資産がインターネットから消滅してしまうと危惧している。館長のブリンドリー(Lynne Brindley)氏は,就任後の2000年7月にeストラテジーを公表し,電子情報保存の意義を特に強調した。9月には電子図書館システムの計画を策定し,IBMに試行用装置の設計を依頼した。ブリンドリー館長は,「英国図書館は,国家の記憶装置である。それは,印刷形態にも,電子情報の時代にも当てはまる。」と主張する。
電子化された資料や電子情報の保存は,当初より懸念されていたが,近年,様々な問題が顕在化している。
BLでは,1999年に電子情報保存ワーキング・グループを設置し,電子情報の保存のあらゆる側面を検討した。グループは,保存部,全国資料保存対策室(National Preservation Office),複写部,情報システム部,書誌および収集部の担当者から構成された。
これらのうち,全国資料保存対策室は,1984年にBL内に設置された組織である。近年は,電子情報の変換,アクセス,保存のためのモデル開発,事例収集,研究と評価が必要な分野での英国の取り組み調整等,英国全体の電子情報の保存のための国家戦略を策定している。
その他に,高等教育や様々な学問分野の関係団体が国家戦略の展開を支援している。例えば,CEDARS(CURL Exemplars in Digital Archives)は,情報システム合同委員会(JISC)のeLibプログラムが助成する,英国研究図書館連合(CURL)等の高等教育関連組織の取り組みである。
電子情報の保存は,個々の機関が解決するのは困難であるため,横断的にまたは組織間で幅広い協力を得ることが重要である。そこで,英国を中心とするこうした主要な組織が参加して,2001年7月,電子情報保存連合(Digital Preservation Coalition:DPC)が設立され,電子情報の長期的な取扱いとアクセス確保の改善という緊急の課題に取り組むことになった。
主要メンバーは,BL,CURL,JISC,OCLC,スコットランド国立公文書館,英国国立公文書館(Public Record Office), 北アイルランド国立公文書館(PRONI),ロンドン大学コンピュータ・センターである。その他に,出版業界団体等も参加して,国をあげて取り組む姿勢を示し,PRキャンペーンの実施を考えている。2002年2月には,英国下院において,正式に事業開始レセプションが開催され,3月にはウェブ・アーカイビングに関するフォーラムが行われた。
コミュニケーションが国境を越え,ハードウェアやソフトウェアが国際市場で流通する現在,電子情報の長期的保存はグローバルな課題となっている。研究,研修等の情報を広く共有することは,他の失敗の轍を踏むことなく,研究開発のコストを抑制するねらいがある。DPCも,オーストラリア国立図書館の同様の取り組み(Preserving Access to Digital Information)等と連携することとなった。
なお,2002年9月には,ヨーロッパ電子図書館会議のウェブ・アーカイビング・ワークショップにおいて,BLも含めた欧米各国の報告が予定されている。また,国立国会図書館もウェブ・アーカイビングのプロジェクトを準備中である。
関西館事業部電子図書館課:河合 美穂(かわいみほ)
Ref.
Guardian 2002.3.19 [http://www.guardian.co.uk/internetnews/story/0,7369,670427,00.html](last access 2002.7.15)
BBC News 2002.3.27 [http://news.bbc.co.uk/1/hi/uk/1896620.stm](last access 2002.7.15)
Times 2002.4.29 [http://www.timesonline.co.uk/article/0,,7-281852,00.html](last access 2002.7.15)
Domain UK. IASA Information Bulletin (39) 2001[http://www.llgc.org.uk/iasa/iasa0054.htm](last access 2002.7.15)
Bury, S. Who lost the June 2001 General Election? [http://www.dpconline.org/graphics/events/presentations/pdf/Bury.pdf](last access 2002.7.15)
Hedstrom, M. The role of national initiatives in digital preservation. [http://www.bl.uk/services/preservation/mheds.html](last access 2002.7.15)
Shenton, H. From talking to doing: digital preservation at the British Library. [http://www.rlg.org/events/pres-2000/shenton.html](last access 2002.7.15)
Beagrie, N. An update on the Digital Preservation Coalition. D-Lib Magazine 8(4) 2002 [http://mirrored.ukoln.ac.uk/lis-journals/dlib/dlib/dlib/april02/beagrie/04beagrie.html](last access 2002.7.15)
河合美穂. Domain.uk−英国のウェブ・アーカイビング−. カレントアウェアネス. 2002, (273), p.2-3.
http://current.ndl.go.jp/ca1467