E2314 - 電子情報の保存・管理の標準手法"Oxford Common File Layout"

カレントアウェアネス-E

No.400 2020.10.15

 

 E2314

電子情報の保存・管理の標準手法"Oxford Common File Layout"

関西館電子図書館課・松永しのぶ(まつながしのぶ)

 

   2020年7月7日,リポジトリにおける電子情報の長期保存のためのファイルシステムの階層を標準化するための手法であるOxford Common File Layout(OCFL)のVersion 1.0が公開された。OCFLのウェブサイトには仕様を示した“OCFL Specification”と実装上の助言を示した“OCFL Implementation Notes”等が公開されている。

   リポジトリコミュニティは,ソフトウェアや基盤の技術変化,分散型ストレージの増加,アプリケーションごとに異なるファイルシステム階層,そして増大していくデータの維持や移行に苦慮してきた。これまでのリポジトリデータの構造化の規格には,米国議会図書館(LC)等で利用されている“BagIt”や米・スタンフォード大学図書館によって開発された“Moab”がある。しかし,前者はコンテンツのバージョン管理をサポートしていないという問題,後者はバージョン更新に伴って重複するコンテンツが増えて処理が重くなるという問題があった。こういった課題を解決すべく,ソフトウェアに依存しない,ファイルレイアウトに対するシンプルでオープンスタンダードな手法として,OCFLの策定は進められた。

   OCFLは2017年9月の英国オックスフォード大学で行われた,オープンソースのリポジトリソフトウェアFlexible Extensible Digital Object and Repository Architecture(Fedora)と2017年にHydraから改名したリポジトリソフトウェアSamveraのスキル向上のために設けられたFedora/Samveraキャンプで,非公式に議論が開始された。同年12月に32機関47人の参加者からなるコミュニティが組織され,2018年5月にはコミュニティメンバーから策定チームが設立,同年10月にアルファ版,2019年6月にベータ版がリリースされていた。

   OCFLの最も基本的な要素はOCFLストレージルートとOCFLオブジェクトである。

   OCFLではコンテンツのバージョン管理が可能だが,ストレージ容量を節約するために差分だけが登録され,同一のコンテンツは過去に登録されたものを参照するようになっている。そのためファイル上でのレイアウトを示す論理上のコンテンツ構造と実際のコンテンツの保存が異なっている。論理上のコンテンツ構造と実際のコンテンツ保存の配置方法の関係を定義しているのがOCFLストレージルートである。

   OCFLオブジェクトはコンテンツファイルと管理情報を含むもので,付与されたURIで識別される。OCFLオブジェクトには,情報の長期保存システムの構築に対するモデルである国際標準規格「OAIS参照モデル(CA1489参照)」における「関連するすべての記述,管理,構造,表現,保存メタデータ」が含まれる必要がある。OCFLオブジェクト内部にはバージョン番号がついたフォルダがあり,その中にコンテンツフォルダが置かれ,各フォルダはインベントリファイルで管理される。インベントリファイルはコンテンツファイルの構成やチェックサム,バージョンに関する情報が記録されているJSONドキュメントで,機械だけではなく人間も読める形式となっている。バージョンごとのフォルダ内部には,各インベントリファイルに関連するダイジェストも生成され,コンテンツ重複排除や破損等の判断に用いられる。

   OCFLのこのような設計により,以下の6点の目標とメリットが達成できるとされている。

  1. 完全性
    オリジナルのソフトウェア等がなくてもOCFLストレージルートからリポジトリを再構築できる。
  2. 解析可能性
    特定のソフトウェアがなくても, 人間も機械も内容を理解できる。
  3. 堅牢性
    エラー,偶発的または故意による破損,ストレージのマイグレーションといった場合でも,データ異常の検出を行うことができる。バージョンごとに検出が行えるため,マイグレーション時の確認が容易となる。
  4. バージョン管理
    過去のオブジェクトのバージョンは不変とされるため,以前のバージョンのオブジェクトも再構築できる。
  5. ストレージの多様性
    オブジェクトの論理上の構造と,OCFL内で実際の保存パスとが異なるため,ファイルシステム構造を問わず保存が可能となり,クラウドサービスを含む多様なストレージインフラを利用することができる。
  6. 効率性
    実装上の課題に照らし合わせ,計算・通信速度・ストレージ効率を考慮して,設計上の決定ができる。

   OCFLはオーストラリア・シドニー工科大学の研究データリポジトリ等で実装されているほか,Fedora6.0への実装,電子情報の長期保存のためのプロジェクトE-ARK4ALLや,米・カリフォルニア大学サンディエゴ校図書館を中心とするリポジトリ保存プロジェクトへの適用・追加の検討が行われている。また電子情報の長期保存に対する革新的な取組を顕彰するDigital Preservation Awards 2020の最終候補の一つにも選ばれており,今後のさらなる展開が期待される。

Ref:
Oxford Common File Layout.
https://ocfl.io/
“Version 1.0 of the Oxford Common File Layout (OCFL) Released”. OCFL. 2020-07-07.
https://ocfl.io/news/#version-10-of-the-oxford-common-file-layout-ocfl-released
Hankinson, Andrew. et al. “The Oxford Common File Layout: A Common Approach to Digital Preservation”. Publications. 2019, 7(2), 39.
https://doi.org/10.3390/publications7020039
“Library Develops Specification for Transferring Digital Content”. Library of Congress. 2008-06-02.
http://www.digitalpreservation.gov/news/2008/20080602news_article_bagit.html
Kunze, John. et al. “The BagIt File Packaging Format (V1.0)”. 2018-09-17.
https://tools.ietf.org/html/draft-kunze-bagit-17
Anderson, Richard. “The Moab Design for Digital Object Versioning”. The Code4Lib Journal. 2013, 21.
http://journal.code4lib.org/articles/8482
Open Archival Information System.
http://www.oais.info/
Sefton, Peter. ; Lynch, Michael. “Implementation of a Research Data Repository using the Oxford Common File Layout standard at the University of Technology Sydney”. UTS eResearch. 2019-07-01.
https://eresearch.uts.edu.au/2019/07/01/OCLF.htm
E-ARK4ALL Project.
http://e-ark4all.eu/
Jefferies, Neil. et al. “Aligning the eARK4All Archival Information Package and Oxford Common File Layout Specifications”. iPRES2019. Amsterdam, 2019-09-16/20, iPRES. 10p.
https://ipres2019.org/static/pdf/iPres2019_paper_45.pdf
“UC San Diego Library Receives Mellon Grant to Develop New Approaches to Preserving Digital Repositories”. The Library UC San Diego. 2019-02-05.
https://library.ucsd.edu/news-events/uc-san-diego-library-receives-mellon-grant-to-develop-new-approaches-to-preserving-digital-repositories/
“Chronopolis OCFL Evaluation”. LYRASIS. 2020-12-09.
https://wiki.lyrasis.org/display/OTM/Chronopolis+OCFL+Evaluation
“Digital Preservation Awards 2020: The Finalists”. Digital Preservation Coalition.
https://www.dpconline.org/events/digital-preservation-awards/the-finalists
工藤哲朗. 第16回電子情報保存に関する国際会議(iPRES2019)<報告>. カレントアウェアネス-E. 2019, (382), E2211.
https://current.ndl.go.jp/e2211
栗山正光. 動向レビュー:デジタル情報保存のためのメタデータに関する動向. カレントアウェアネス. 2003, (275), CA1489, p. 13-16.
https://doi.org/10.11501/1012127