CA1198 – カナダ国立図書館における電子出版物のアーカイビング / 前田直俊

カレントアウェアネス
No.227 1998.07.20


CA1198

カナダ国立図書館における電子出版物のアーカイビング

電子出版物の「アーカイビング」とは,最も広義には収集・組織化・保存・更新・管理までの過程を指すが,その適用範囲は機関・個人によって異なる。しかしながら標榜するところは,電子出版物に対する長期的なアクセスを保証することで一致しており,その背景には言うまでもなくUAP(用語解説T27参照)の理念が存在する。

カナダ国立図書館(NLC)における電子出版物パイロットプロジェクト(EPPP)についてはCA1073で紹介済みであるが,その最終報告に基づき,NLCではまずターゲットを絞ったアーカイビングを行うという方針が定められた。すなわち,すべての電子出版物の収集は不可能との判断から,収集対象とすべき電子出版物を限定した上で,その限定範囲内での完全かつ包括的なアーカイビングを行うというのがNLCの基本方針である。ちなみに対照的な例として,スウェーデン国立図書館におけるロボット型の非限定的アーカイビングへの挑戦(Kulturarw3)が挙げられる。

NLCはまず電子出版物を「物理的媒体型」(フロッピーディスクやCD-ROM等)と「オンラインネットワーク型」に大別・定義した上で,後者のうちカナダ内のサーバから提供されているもの,カナダの政府・個人・団体等により制作・提供されたものにアーカイビングの照準を合わせた。これは単なるリンクの提供ではなく,データのオリジナルコピーそのものの収集・保存である。

E-mailないしはFTPにより製作者からファイル送付を受けるというのが,主な収集手段である。なかにはフロッピーディスクで提供されたものもあったが,少数であった。FTPに際しては,制作者が転送可能なようにゲストサイトを設置した。さらに,ミラーリングにより常に最新情報を収集する手段を確保するという方法もとった。提供元のサーバがカナダにあることを認定するには,ドメイン・アドレスの終わりが「〜.ca」であることが一つの目安となる。しかし最近ではコスト低減のため海外サーバを利用する傾向にあり,国内制作者のサイトでも「〜.com」「〜.org」など米国のドメイン名が少なくない。これらについては制作者の国籍およびドキュメントの主題が基準になる。無論,こうしたアーカイビングを行うには,著作権処理はすべてクリアされていなければならない。

収集されたデータはNLCのサーバに蓄積され,インターネットを通じてWWW上で提供される。

EPPPで試行された無償提供の電子ジャーナルに引き続き,最優先にアーカイビングの対象となったのは,印刷体が打ち切られた政府刊行物であった。これらの中にはオンラインでの提供期間が限定されているものもある。

さらに対象を拡大する際には,個人的趣味で作成されているものや宣伝性の強いもの,E-mail,出版物としての特徴を備えていないもの,Gopherサイト,オンラインデータベースなどは除外される。抄録やコンテンツテーブルなども除外して,オリジナルドキュメントのみを対象とする。他のメディアでは提供されていないものを優先し,また二次的情報源からではなく,制作者自身から直接提供されるものを優先的に,早い段階で収集するよう努める。更新されたドキュメントは,古いバージョンを保存しつつ,随時アーカイブしていく。当然のことながらこれにはインデクシングの重要性が大きい。

インターネットの世界では,WWWでのドキュメント記述言語であるHTMLが最も汎用的フォーマットとなっているが,その最大の特徴であるリンクの保存も課題であった。文字通り「蜘蛛の巣」のごとくリンクの張りめぐらされた環境下で,一つの作品としての境界線・著作権の発生範囲をどう定義するか。EPPPの結論を受けて,NLCはその範囲を同一ドメイン内にリンクされたものとみなしている。

電子出版物にはHTMLのほかにASCIIやPDF(用語解説T28参照)など,様々なフォーマットのドキュメントが存在する。長期的アクセス・保存・管理にあたって予想される困難・混乱を回避するため,同一出版物に複数のフォーマットがある場合は,非標準的フォーマットの方がより完全なものである場合を除いて,標準フォーマットを全て集める方針である。また例外的に収集された非標準的フォーマットについては,NLCは可能な限り標準フォーマットへの変換を試みる。これについては著作権侵害の恐れがあるのではないかとの指摘がなされたが,EPPPでは議論を重ねた結果,オリジナルの保存および長期アクセスの保証のための変換は著作権の侵害に当たらないと結論づけた。しかし,なかには変換が困難なものもあり,完全なフォーマット統制は実現できていない。結果的に,特定のアプリケーションを要するドキュメントができるなど,アクセスに多少の煩わしさを残すことになってしまった。

ドキュメントの完全性(CA1087参照)の追求とフォーマット統一のこうしたジレンマは,電子出版物に標準化が欠けている現状では必然的なものであり,変換の容易化や「電子署名(digital-signatures)」,「日時記録(time-stamping)」(CA1087参照)などを含んだ標準化は取り組むべき課題の一つである。ただし,単なる変換の容易化は不当利用の危険性を孕んでおり,著作権問題が解決しない限り標準化は進まないとの見方もある。これらは法定納本の可能性とも絡めて今後の進展が注目される。

印刷媒体やマイクロ媒体などの非電子出版物と比べて保存の確証が曖昧な電子出版物の維持管理については,磁気テープやCDなどへのバックアップが当面の対処策である。ただしこれにはコストがかかる。また,ハードウェア・ソフトウェアの移り変わりが極めて激しい状況下では,今後どうしても必要になるであろうハード・ソフトの変更時に,どのようにドキュメントの完全性を保持するかなど,技術面での開発はまだまだ研究を要する。

こうして蓄積された電子出版物はE-collectionと名付けられた。NLCはこのE-collectionについても従来の非電子出版物と同様に分類・書誌記述を行い,カナダ全国書誌Canadianaに登録・オーソライズしていく意向である。E-collectionへの蓄積は進行中であり,1998年2月現在でタイトル一覧中のインデックス数は「Serial」が312,「Monograph」(画像等を含む)が472である。タイトル・主題の一覧と検索,HTML・ASCIIそれぞれのフォーマットドキュメント内のキーワード検索が可能である。URLは「http://collection.nlc-bnc.ca/」(last access 98/02/26)。

前田 直俊(まえだなおとし)

Ref: National Library of Canada. Electronic Publication Pilot Project (EPPP): summary of the final report. 1996. [http://collection.nlc-bnc.ca/100/200/301/nlceppp-s/ereport.htm] (last access 98/02/26)
Newman, William L. Electronic publications, systems and the National Library of Canada. Nat Libr News 28 (5) 13-15, 1996
Blair, Rolande. Electronic publications: update on a multifunctional approach at the National Library of Canada. Nat Libr News 29 (2) 7-9, 1997
Winston, Iris. Building an E-collection. Nat Libr News 29 (3/4) 9, 1997
Brodie, Nancy. Archiving electronic publications: the role of the National Library of Canada. Nat Libr News 29 (10) 6-8, 1997
The Royal Library (National Library of Sweden). The Kulturarw3 Heritage Project. [http://kulturarw3.kb.se/html/projectdescription.html] (last access 98/02/26)