E951 – フランス国立図書館におけるウェブアーカイブの現在

カレントアウェアネス-E

No.154 2009.07.22

 

 E951 

フランス国立図書館におけるウェブアーカイブの現在

 

 フランス国立図書館(BnF)は,2004年からフランス国内ドメインのインターネット情報資源の大規模な収集を開始し,2006年には「情報社会における著作権及び著作権隣接権に関する法律」に基づく納本制度の一環となっている(CA1614参照)。この収集プロジェクトについて,現在までの動向が同館の2009年6月23日付のブログで紹介されている。ここでは,収集の方法に焦点を当てて,ブログの記事とBnFのウェブサイトの情報を基に,収集の3つの方法とそれらの経緯をまとめてみる。

  • フランスドメインの自動的網羅的収集
  • 図書館員の選別による絞込み収集
  • サイト管理者からの直接収集

 BnFは,2004年に米国の非営利団体Internet Archiveとの「国内ドメイン」の定義に関する調査協定に署名し,その協定の枠内でフランス国内ドメインのサイトの「スナップショット」(instantane)による網羅的収集を実行している。収集に際しては,「.fr」ドメインのサイトと 「.com」や「.org」などの総称的なドメインのサイトの一部が対象となっている。Internet Archiveの管理の下で,ロボットが収集を行ない,サイトのアドレスのリストから出発して,ページからページへとウェブ上を探索し,見つけたファイルを集めていく。2007年からは,フランスのドメイン管理団体である”AFNIC”(Association Francaise pour le Nommage Internet en Cooperation)との協定により,「.fr」と「.re」のドメイン名の網羅的なリストを自由に用いることが可能となった。最初の収集は2004年秋で,以降2005年末,2006年末,2007年末と年1回のペースで続けられている。各スナップショットは数億ものファイルによって構成され,2004年の2.5テラバイトから2007年の7テラバイトへとその総サイズは増加の傾向を示している。

 年1回の収集に限定されるスナップショットは,図書館員の選別による収集で補完される。図書館員が作成した絞込み収集用のリストを基にロボットが収集をしていくというものである。2005年から2006年までは前述のInternet Archiveが収集を行なっていたが,2007年に収集設備の整備が行なわれ,以降はBnF内部での実行が可能になっている。この整備が行なわれる契機となったのが,2007年の選挙に関するサイトからの収集で,2006年10月から2007年7月までの10か月間に渡って大統領選挙と国会議員選挙に関する5800以上のサイトからデータが集められた。

 政府系刊行物のオンライン版を収集する場合など,ロボットによる自動的な収集が困難であれば,BnFが要求しサイト管理者に直接提供してもらう場合もある。

 これらのコレクションの利用は,パリとアビニョンの館内にある閲覧用端末でのみ可能となっており,2009年6月22日にその端末数が350台に増設され,より多くの利用者への提供を可能にしている。

Ref:
http://www.bnf.fr/pages/infopro/depotleg/dli_intro.htm
http://www.bnf.fr/pages/version_anglaise/depotleg/dl-internet_quest_eng.htm
http://bbf.enssib.fr/consulter/bbf-2008-06-0020-004
CA1614