E947 – ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に

 

カレントアウェアネス-E

No.153 2009.07.08

 

 E947 

ウェブアーカイブの保存用ファイルフォーマットWARCがISO標準に

 

 2009年5月,国際インターネット保存コンソーシアム(IIPC;CA1664参照)の取り組みが実り,ウェブアーカイブの保存用ファイルフォーマットWARCが,国際標準機構(ISO)の国際規格ISO 28500:2009となった。

 WARC(名称は「”W”eb “Arc”hiving」に由来)の素案は,IIPCの主要メンバーであるインターネットアーカイブ(Internet Archive)が採用しているウェブアーカイブ保存用ファイルフォーマットARCを,2004年にIIPCにおいて,国立図書館等で汎用的に使える保存形式に拡張したものである。

 2005年,IIPC素案をたたき台として,IIPCとISOとの間で,WARCの国際規格化の進め方について議論が開始された。2006年2月,ISO第46専門委員会(ISO/TC46)のチェンマイ会議(タイ)において,WARCの国際規格化作業がISOに正式承認された。これを受けてIIPCの「標準(Standard)」ワーキンググループは,ISO/TC46(E942参照)のワーキンググループWG12と協力して,2007年12月にWARCの国際標準原案(DIS: draft International Standard)を策定した。2008年末,DISが国際標準最終案(FDIS : final draft International Standard)としてISOに承認され,2009年5月にWARCは国際規格となったのである。

 WARCの概要は,次のとおりである。

 WARC形式のファイルは,1つあるいは複数のWARCレコードで構成される。WARCレコードは,「ヘッダー」と「コンテンツブロック」がセットとなったデータである。「ヘッダー」には,ファイル関連情報を記録するWARCフィールドが格納される。「コンテンツブロック」には収集したコンテンツファイルそのものが格納される。

 WARCフィールドに記録するのは,ウェブアーカイブの収集日,収集方法等の基本的な情報のほか,ウェブアーカイブの長期利用保証のためのマイグレーションや,コンテンツファイルの重複収集の排除に関する情報などである。

 WARCの国際規格化の意義のひとつは,ウェブアーカイブのメタデータ項目とその記述方法が,WARCフィールドとして標準化されたことにある。WARCを通じて,諸機関のメタデータの共有が可能となり,IIPCを軸とする国際連携による,長期利用保証等のウェブアーカイブの保存にかかる諸課題への取り組みが促進されると考えられる。

 また,IIPCが2007年から3か年計画で実施中の,WARCの有効活用と普及を目指す“libwarc”プロジェクトでは,“WARC Tools”の開発が行われている。これまでの成果として,ARCからWARCへの変換ツールやWARC形式のファイルを直接閲覧することができるWARC Browser等が完成している。

 なお2010年初旬を目処に,国立国会図書館でもウェブアーカイブをWARC形式で保存する予定である。

 IIPCは,WARCの国際規格化の成功を受け,次の国際標準化への取り組みとして,2009年4月にISOが制定した「国立図書館のためのパフォーマンス指標」(CA1653参照)におけるウェブアーカイブの指標を,ISOと協力してより具体化することを検討している。

(関西館電子図書館課・柴田昌樹)

Ref:
http://netpreserve.org/press/pr20090601.php
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=44717
http://bibnum.bnf.fr/WARC/WARC_ISO_28500_version1_latestdraft.pdf
http://www.archive.org/web/researcher/ArcFileFormat.php
http://code.google.com/p/warc-tools/
CA1653
CA1664
E942