CA1214 – スウェーデン国立図書館のKulturarw3プロジェクト / 藤田盛也

カレントアウェアネス
No.230 1998.10.20


CA1214

スウェーデン国立図書館のKulturarw3プロジェクト

昨今の電子出版物の隆盛により,各国の納本制度は見直しを迫られている(CA1007参照)。わが国では,CD-ROM等の「パッケージ系」は納本制度の対象とするが,インターネットのホームページ等の「ネットワーク系」は当分の間,対象としない方向にある(納本制度調査会電子出版物部会・中間報告)。一方,スウェーデンでは「ネットワーク系」をも積極的に収集する方向で進んでいる。

スウェーデン国立図書館(Kungliga Biblioteket: KB)は,1661年の納本制度導入以来,国内全出版物を収集している。1994年からは,改訂された納本制度のもとで,CD-ROMやフロッピーディスク等に「固定された」形態の電子出版物も収集することになった。コンピュータネットワーク上の電子出版物は現在のところ対象外であるが,検討中の新制度では対象とし,サービス方法を盛り込む方向にある。しかしその一方で,紙媒体で出版されないインターネット上の情報は日を追うごとに増え,KBでは1643年の国内初の日刊紙は所蔵しているが,1993-95年のウェブ上国内初の電子ジャーナルは所蔵していないという事態が起こっている。KBはナショナル・メモリーの役目を全うするために,できる限り多くのインターネット上の出版物を保存すべきと考え,新制度の立法化をまたず,ネットワーク上の出版物を収集することを決定した。

こうして1996年,ネットワーク上の出版物を収集するために開始されたプロジェクトがKulturarw3である。このプロジェクトの目的は,スウェーデン電子出版物の収集,保存および利用の方法をテストすることにある。世界各国で電子出版物を保存する試み(CA1160CA1161CA1162CA1163CA1164CA1165CA1198CA1204参照)がなされているが,こうしたプロジェクトでは収集対象に優先順位をつけたり,範囲を限定している。しかし,Kulturarw3ではロボットを使って,スウェーデンのインターネットからあらゆる電子出版物を自動的にダウンロードすることを基本においている。なぜ無差別に収集するかというと,未来においてどんな情報が価値をもつのか決めることは不可能であり,選択しない方が手間がかからないからである。また,コンピュータの記憶装置の価格が下がり,保存コストが低下したこともあげられる。

収集の対象となるものは,ドメイン名がスウェーデンを表わす「.se」で終わるもの,また「.com」や「.org」,「.net」などのドメイン名をもつが,スウェーデンの制作者によるとみなされたものである。こうしたウェブ上の情報は二つの方法で収集される。ひとつは年に2回,対象となるページ全てを収集する方法,もうひとつは電子ジャーナル・新聞など定期的に更新されるウェブを対象に,変更がある度に収集する方法である。また,ウェブ以外のインターネット情報であるニュースグループ,メーリングリスト,gopherなどもスウェーデンのものは網羅的に収集される。

収集はルンド大学で開発されたドキュメント収集用のプログラムであるアーカイビング・ロボットを使って行われる。これまでに2回アーカイビング・ロボットを実行している。1回目は1997年春に行い,ドメイン名「.se」のみを対象とし,17,000のウェブサイトから590万のURLを探索している。2回目は1997年秋に行い,ドメイン名「.se」に加え,「.com」,「.org」および「.net」も対象とし,27,000のウェブサイトから950万のURLを探索している。集められたファイルはhtmlファイルが480万で50%を占め,gifおよびjpegの画像ファイルが330万で34%,textファイルが9%,残りその他となり,全体の量は200ギガバイトになる。

現在,収集したデータは磁気テープに保存されているが,今後に向けて様々な保存方法が試されている。保存にあたって問題になるのが,ソフトウェアやハードウェアの寿命の短さである。頻繁にバージョンアップされるため,古いソフトウェアやハードウェアが使えなくなってしまう。KBは保存するからといって,誰も使うことができないソフトウェアやハードウェアを展示する情報技術博物館になるつもりはない。そのため,将来使われるソフトウェアやハードウェアにデータを移行しやすい長期的な保存方法を模索したり,複数の方法で保存することを考えている。

今のところ,収集データを一般に公開してはいない。利用にあたっては,容易にナビゲートが可能な形にデータが組織化されている必要がある。また,リンクをたどって空間的に収集データをめぐることが可能なだけでなく,ウェブサイトがどのように時間を追って進化してきたかたどることも求められよう。そのための方法を考案中であり,利用が可能となるにはまだ時間がかかると思われる。納本に関する新法の制定過程においても利用に関して議論されることが考えられ,複製に係る著作権等の問題が検討対象となろう。

Kulturarw3プロジェクトの動向は北欧諸国から注目されており,フィンランドでも1998年1月より同様のプロジェクトが開始されている。1997年には北欧諸国における協力組織として,Nordic Web Archive (NWA)が設立されている。インターネット上の情報は国境にとらわれない広がりをもっている。そのため,Kulturarw3は国際協力という観点にも重きを置いている。Kulturarw3はわが国にとっても興味深いものと思われ,その動向は注目に値しよう。

藤田 盛也(ふじたせいや)

Ref:納本制度調査会電子出版物部会の中間報告について 国立国会図書館月報(442)11-17,1998
Arvidson, Allan. The Kulturarw3 project: the Swedish Royal Web Archive. Electron Libr 16 (2) 105-108, 1998
The Royal Library (National Library of Sweden). The Kulturarw3 Heritage Project. [http://kulturarw3.kb.se/html/projectdescription.html] (last access 1998.8.30)