Webrecorderプロジェクト、ウェブアーカイブに関する新たなファイルフォーマット“WACZ”のバージョン1.0をリリース

ウェブアーカイブのツール構築に取り組むWebrecorderプロジェクトは、2021年1月18日付けのブログ投稿において、ウェブアーカイブに関する新たなファイルフォーマット“WACZ”(Web Archive Collection Zipped)のバージョン1.0のリリースを発表しています。

WACZは、WARC形式の複数のファイルを、インデックスデータとともにZIP形式で圧縮するパッケージ・フォーマットとして機能します。仕様はGitHub上で公開されており、ファイル拡張子は「.wacz」です。

Webrecorderプロジェクトは、2020年8月12日付けのブログ投稿において、当時開発中であったWACZの解説を行っており、以下の利点等が紹介されています。

・個々のWARCファイルには自身のインデックスデータが含まれていないため、内容を特定するためにファイル全体を読み込む必要がある。一方、WACZではコンテンツのインデックスデータを含むため、インデックスを活用した部分的な読み込みが可能となる。
・WARCはタイトルや説明記述(description)のようなメタデータを保存できる設計となっていないが、WACZではそれらメタデータもまとめてパッケージ化することが可能である。

Announcing WACZ Format 1.0(Webrecorder, 2021/1/18)
https://webrecorder.net/2021/01/18/wacz-format-1-0.html

Next Generation Web Archiving: Loading Complex Web Archives On-Demand in the Browser(Webrecorder, 2020/8/12)
https://webrecorder.net/2020/08/12/next-generation-web-archive.html
※2020年8月12日付けのブログ投稿であり、当時開発中であったWACZの紹介が掲載されています。

webrecorder/wacz-format(HitHub)
https://github.com/webrecorder/wacz-format

参考:
デジタルアートの保存に取り組む米国の団体Rhizome、ウェブアーカイブサービスWebrecorder.ioの名称を“Conifer”に改称
Posted 2020年6月16日
https://current.ndl.go.jp/node/41234

ウェブアーカイブツールWebrecorderが新機能“Autopilot”を公開:特定サイトのキャプチャを自動化
Posted 2019年8月15日
https://current.ndl.go.jp/node/38802