PDFファイルはこちら
カレントアウェアネス
No.281 2004.09.20
CA1531
中国国家図書館のウェブ・アーカイビング
はじめに
情報が,空間的,時間的安定性を欠いているというインターネットの限界を克服しようという試みは,近年,世界中の国立図書館等を中心に行われ始めている。それは,ワールド・ワイド・ウェブ上の情報資源を収集し蓄積する「ウェブ・アーカイビング(web archiving)」と呼ばれている。中国国家図書館(National Library of China:NLC)では,2003年1月より「ウェブ情報資源の収集と保存実験プロジェクト(Web Information Collection and Preservation:WICP)」(E163参照)を開始した。本稿はWICPをめぐる実践について報告する。
1. NLCについて
NLCは,中国国内で刊行される出版物を納本制度により網羅的に収集蓄積し,文化遺産として長く保存する役割を担っている。NLCは,市場や一般の図書館から入手できない資料を,最後のサプライ・センターとして提供する機能を持っている。納入の対象となる出版物としては,図書,逐次刊行物,音声資料,パッケージ系電子出版物等が挙げられる。インターネット情報等の「ネットワーク系電子出版物」の納入対象化については,2003年5月に中国国家図書館長から中国図書館法起草委員会に対し提案がなされ,現在審議中である。
21世紀における中国の重要な国家戦略の一環として,2001年10月に,中国政府は,情報化社会に対応するための基盤プロジェクトとして,中国デジタル・ライブラリー・プロジェクト(China Digital Library Project)を発足させた。ウェブ・アーカイビングは当該プロジェクトにおける情報資源構築の重要な要素である。NLCは当該プロジェクトの中核を占めていて,ウェブ・アーカイビングに関する施策の推進と技術的試験を積極的に進めている。
2. NLCの取り組み
ウェブ情報資源は中華文明の成果でありデジタル文化遺産の一部であるから,適切に保存・保護されなければならない。また,ウェブ情報資源はNLCの蔵書構築とサービスにとって戦略的意義を持つものであるから,NLCは伝統的な図書資料の収集と同じように,各種ウェブ情報資源を網羅的に収集しなければならない,と考えている。
ウェブには,表層ウェブと深層ウェブの2つの類型がある。表層ウェブは主に静的なHTML等で構成され,ロボットで比較的容易に収集できる。データベース等の深層ウェブは,アクセスの都度動的に生成され,十分な収集は困難である。NLCは,ウェブ情報資源の収集と保存に関して,表層ウェブと深層ウェブに対し,異なる組織化戦術を取っている。即ち,WICPプロジェクトとODBNプロジェクト(Online DataBase Navigation)である(下図参照)。
ロボットによる表層ウェブの収集はウェブ・アーカイビングの代表的な手段である。まず,ロボットを用いて,ウェブのデータを図書館のアーカイブ用サーバに複製することによって,情報を「記録化」する。これによって,情報が更新,削除される恐れがなくなり,内容の安定性が確保される。また,収集した情報の組織化を行うことによって,情報の存在を空間的に安定させる。さらに,この収集した情報を将来のために保存することによって,継続的なアクセスを保証し,情報の存在を時間的にも安定させる。
3. WICPとその業務モデル
今のところ,WICPは「選択的収集」のアプローチを取っている。個々のウェブ情報について,サイトとウェブページ単位で選択して収集している。
a)サイト単位でミラーアーカイブ
ウェブロボットを用い,あるサイトのトップページからダウンロードしていき,ダウンロードしたデータは原本のディレクトリ構造を維持し,一つの情報ユニットとして保存する。ウェブ情報は頻繁に更新されるため,同じタイトル,同じURL であっても,情報の更新にあわせて異なる時点で同一対象を重複ダウンロードする必要がある。このようにして複数の情報ユニットが作られ,すべての情報ユニットはウェブ情報の一つの「版」と見なされる。
ダブリン・コアによって,収集したウェブ情報の目録作成を行い,書誌データは全国書誌に収載する。
ワークフロー
- (1)対象調査:対象になるサイトの内容とその技術的課題を調査する。
- (2)収集条件の設定:ウェブロボットに収集の深さ,広さ,頻度などの条件を設定する。
- (3)収集の実施:ウェブロボットを稼動させる。
- (4)書誌作成:目録作成を行う。主な目録記述要素は,サイト名,著作権者,発行者,公開日,分類,件名,リソース類型,URLである。
- (5)品質検証:収集したデータの品質を検証する。
- (6)情報ユニット登録:一つ一つの情報ユニットを書誌データシステムに登録する。
- (7)サービス提供:館内LANで来館者に提供する。
コレクション(2004年6月20日現在)
- (1)政府情報コレクション:国務院各部,各委員会,各省,直轄市,自治区のサイトなど57件
- (2)逐次刊行物コレクション:記事全文を無料で提供する電子新聞と電子ジャーナルのサイトなど34件
- (3)中国学コレクション:中国と国外の中国研究を主題とするサイトなど25件
b)ウェブページ単位で主題アーカイブ
WICPは選択的収集が基本ではあるが,特定の主題やイベント(たとえば,SARS,北京オリンピック)に関連するウェブ情報を網羅的に収集するという主題アーカイブも行っている。主題アーカイブでは,イベント期間を限定したうえで,ホームページ,ポータル,サーチエンジン,チャットなど動的で寿命の短いウェブ情報を対象として一日一回以上の頻度で収集を行う。
ワークフロー
- (1)主題の選択:網羅的に収集すべき特定の主題やイベントについて,その重要さ,影響度,存続期間などの条件により,保存価値を判断する。
- (2)対象調査:対象になるホームページ,ポータル,チャットなどの内容とその技術的課題を調査する。
- (3)収集条件の設定:ウェブロボットにキーワード,収集の深さ,広さ,頻度などの条件を設定する。
- (4)収集の実施:起点を定め,ウェブロボットを稼動させる。
- (5)メタデータの生成:ウェブページの主題,責任者,公開日,公開時間,オリジナルURL,要約,付属ファイルそのものの抽出と,分類,件名,識別子などの自動付与をし,メタデータとする。
- (6)スナップショット:当該ウェブページをダウンロードし,スナップショットを作る。
- (7)データ保存:メタデータとスナップショットをデータベースに保存する。
- (8)品質検証:収集したウェブページの品質を検証する。
- (9)サービス提供:館内LANで来館者に提供する。
コレクション(2004年6月20日現在)
- (1)「北京オリンピック」:22万ページ
- (2)「SARS」:32万ページ
- (3)「中国の有人宇宙飛行」:15万ページ
- (4)「国家図書館」:1.3万ページ
- (5)「図書館情報学」:1万ページ
4. おわりに
以上,NLCのウェブ・アーカイビングについて紹介した。ウェブ・アーカイビングをめぐっては,著作権や納本制度といった制度的課題が存在しているとともに,内容選択,ロボット性能,収集方針,保存粒度(CA1431参照),品質管理,メタデータ,オブジェクト識別子,全文検索,格納形式,長期的保存等々,それぞれに制度的,技術的要素が絡み合った複雑な課題が数多く存在する。NLCは世界の国立図書館と連携して,これらの制度的,技術的問題を解決しながら,図書館の社会的役割を充実させていくつもりである。
中国国家図書館:王 志庚(おう しこう)
Ref.
Web Information Collection and Preservation. (online), available from < http://webarchive.nlc.gov.cn/index.htm >,(accessed 2004-06-20).
国立国会図書館訪中代表団. 第23回日中業務報告―国立図書館の機能強化―. 国立国会図書館月報. (515), 2004, 1-9.
王志庚. 中国国家図書館のウェブ・アーカイビング. カレントアウェアネス. 2004, (281), p.5-6.
http://current.ndl.go.jp/ca1531