PDFファイルはこちら
カレントアウェアネス
No.296 2008年6月20日
CA1664
IIPCを中心としたウェブアーカイブに関する動向
国際インターネット保存コンソーシアム(International Internet Preservation Consortium:IIPC) とは、国立図書館等が国際的に連携してウェブアーカイブ(CA1537、E751参照)の技術開発等を行うための組織である。IIPCは、フランス国立図書館(BnF)、米国議会図書館(LC)、インターネットアーカイブ(Internet Archive:IA)等、37機関で構成されている(2008年4月現在)(1)。2008年4月、国立国会図書館(NDL)は、IIPCに加盟した。
本稿ではIIPCの設立経緯、組織、成果物、今後の取組みについて、概観する。
1. 設立の経緯
1990年代半ばから、LC、オーストラリア国立図書館(NLA)、スウェーデン王立図書館等欧米言語圏の国立図書館は、ウェブ情報の蓄積・保存に取り組んできた(CA1537、CA1214参照)。
IIPC設立のアイデアは、2001、2002年開催の「デジタル図書館のための研究・先進技術に関する欧州会議(European Conferences on Research and Advanced Technology for Digital Libraries:ECDL)」での、第1~2回国際ウェブアーカイビングワークショップ(International Web Archiving Workshops:IWAW)において生まれた(2)。参加した国立図書館等の間で、ウェブアーカイブ技術開発の課題解決には国際連携が必要との認識が共有されたのである。2003年1月、IWAWを主催したBnFは、電算化書誌記録行動(Computerized Bibliographic Record Actions:CoBRA;CA1401参照)及び世界図書館(Bibliotheca universalis;CA996参照)の両者に対して、ウェブアーカイブの国際的なコンソーシアムの設立を提案した。この提案をうけて2003年7月、12の国立図書館等が設立理念等で合意し、IIPCが設立された(CA1537参照)。
第1期(2003~2006年)は、設立メンバー以外に加盟を求めず、必須のウェブアーカイブ技術を短期間に開発することに注力した。
第2期(2007~2009年予定)は、加盟資格を非欧米言語圏の国々も含むあらゆる文化財保存機関や研究機関に拡大し、幅広い機関の経験と貢献により、IIPC第1期の成果をより充実することを目指している。
2. 組織
IIPCは年1回、加盟機関の全代表者による総会(General Assembly)を開催する(2008年は4月にキャンベラで開催)。総会には、前年度の成果報告や当年度の作業計画等が提示される。
IIPCの運営方針等は、加盟機関のうち、数機関の代表者で構成される運営委員会(Steering Committee)により決定される(2008年の調整担当機関/議長館(Coordinating institution /Chair:任期1年)はアイスランド国立・大学図書館)。運営委員会は少なくとも年2回開催され、(1) 調整担当機関、専門担当役員(Technical officer)、連絡担当役員(Communication officer)の任命、(2) 新規加盟申請の検討と承認、(3) 戦略的計画、年間計画の策定等について討議・決定する。
IIPCのプロジェクト評価等を行うのは、専門委員会(Technical Committee)である(2008年の専門担当役員(任期3年)はBnF)。専門委員会は、(1) プロジェクト提案の評価、(2) ワーキンググループの設立等の運営委員会への提案、(3) プロジェクト成果物のレビュー、等を行う。
プロジェクトを実施するワーキンググループには、(1) 規格(Standards)、(2) 収集(Harvesting)、(3) 提供(Access)、(4) 保存(Preservation)の4つがある。
その他の役員として、庶務、加盟機関間の連絡調整を担う連絡担当役員(任期3年)及び財務担当(Treasure:任期3年)がある(2008年はそれぞれLC、BnF)。
3. 成果物
3.1 ウェブアーカイブ技術
オープンソース(Open Source Software:以下「OSS」という。)のウェブアーカイブ技術の開発は、IIPCの主要な目的のひとつである。下記の成果物(ソフトウエア、ソースコード等)は、Sourceforge.net等によりインターネットで公開され、IIPCの加盟、非加盟を問わず、誰もが自由に利用できる。
(1)収集ロボット“Heritrix”
“Wayback machine”(3)でウェブアーカイブに実績を持つIAが中心となり、Heritrixと称する収集ロボットの開発を行っている。アーカイブの保存形式は、WARC、ARCの選択が可能である(保存形式については3. 2を参照)。
Heritrixはすでに実運用段階にあり、BnF、NLA等では、Heritrixを用いたナショナルドメイン規模のウェブアーカイブを行っている。またデンマーク王立図書館では、Heritrixと保存、提供モジュールが一体となった“Netarchive.suite”と称するパッケージをOSSで提供している。
(2)選択的ウェブアーカイブツール“Web Curator tool”
選択的収集によるウェブアーカイブ業務用ソフトウェアとして、ニュージーランド国立図書館、BLが開発を行っている。
(3)全文検索エンジン“NutchWAX”
ウェブアーカイブの全文検索ソフトウェアとして、オープンソースのウェブ検索エンジン“Nutch”にIAの保存形式である“ARC”(Archive)を読み込む機能を付加(Web archive extensions:WAX)したものである。北欧ウェブアーカイブ(Nordic web archive:NWA)が開発した成果を引き継ぎ、IAが中心となり開発を行っている。
(4)提供用インターフェース“Open source Wayback”
ウェブアーカイブの閲覧用ソフトウェアである。IAが開発を行っている。WARC、ARC の両保存形式に対応する。ウェブアーカイブ閲覧時に時間軸(Timeline banner)を動かし、別時期のアーカイブに移動できるのが特徴である。
3.2 規格
ウェブアーカイブの保存形式として“WARC”(Web Archive)を国際標準化機構(International Organization for Standardization: ISO)に提案している。WARCは、ARCを標準的なフォーマットとして改定したものである。WARC、ARCとも、任意の1つのファイルの中に、簡単なテキストヘッダーとコンテンツデータを格納する点は同じだが、WARCではメタデータの付与や重複収集の記録等が可能である。
4. 今後の動向とNDLの役割
IIPC第2期は、アーカイブ技術のさらなる高機能化とともにアーカイブデータの長期保存等を焦点としている。具体的には(1)収集の障害となるスパム回避や映像コンテンツ収集等Heritrixの性能向上、(2)新たな全文検索の仕組みの検討、(3)ウェブアーカイブ長期保存のためのガイドラインの策定等を予定している(4)。
NDLデジタルアーカイブシステム(5)では、Heritrixの非欧米言語対応追加機能等を開発の上、採用する計画である。NDLは、これらの開発成果やIIPC結成とほぼ同時期から開始したWARP(6)(インターネット情報選択的蓄積事業)等ウェブアーカイブの取組み実績を背景に、IIPCの活動への積極的な貢献を目指している。
関西館電子図書館課:柴田昌樹(しばた まさき)
(1) IIPCの加盟機関、組織、成果物等は次を参照。
International Internet Preservation Consortium “Netpreserve.org”. http://netpreserve.org/about/members.php,(accessed 2008-05-13).
(2) 第1、2回IWAWの主催者のひとりが、2008年1月当館で講演を行ったマネサス(Julien Masanes;2004年IIPC議長、現ユーロピアンアーカイブディレクター)氏である。
“講演とディスカッション「ウェブアーカイビングの現在と展望-国際連携に向けて-」”. 国立国会図書館.http://www.ndl.go.jp/jp/publication/proceedings/web_arch08/index.html,(参照 2008-05-13).
(3) Internet Archive. “Wayback Machine”. http://www.archive.org/web/web.php, (accessed 2008-05-13).
なお、3.1.(4)の“Open source Wayback”は、Wayback MachineをOSS版として改良したものである。
(4) Carpenter, Kris. “Opportunities for Global Cooperation & Collaboration in Web Archiving”. National Diet Library. http://www.ndl.go.jp/jp/publication/proceedings/web_arch08/carpenter.pdf, (accessed 2008-05-13).
(5) “NDLデジタルアーカイブシステム”.国立国会図書館. http://www.ndl.go.jp/jp/aboutus/ndl-da.html, (参照 2008-05-13).
(6) “WARP”.国立国会図書館. http://warp.ndl.go.jp/,(参照 2008-05-13).
柴田昌樹. IIPCを中心としたウェブアーカイブに関する動向. カレントアウェアネス. 2008, (296), p.8-10.
http://current.ndl.go.jp/ca1664