E1554 - 電子情報保存のファイル形式方針の実態調査<文献紹介>

カレントアウェアネス-E

No.257 2014.04.10

 

 E1554

電子情報保存のファイル形式方針の実態調査<文献紹介>

 

Kyle Rimkus; Thomas Padilla; Tracy Popp and Greer Martin. Digital Preservation File Format Policies of ARL Member Libraries: An Analysis. D-Lib Magazine, 2014, 20(3/4).

 機関リポジトリや電子図書館サービスの構築にあたっては,多くの管理者は,長期にわたる保存と管理を考慮して,標準となるファイル形式の方針を策定する。長期保存におけるファイル形式方針の策定においては,絶対確実なファイル形式といえるものはない。仕様がオープンな形式の方がコンテンツの読み出しにおける透明性が高く,長期保存に向いていると考えられるが,商用であっても広く普及している形式の方が長期的に信頼できるとも考えられる。サービスによって,方針はさまざまである。この報告書は,北米研究図書館協会(ARL)の参加館の機関リポジトリ等のファイル形式の方針を調査し,方針における各ファイル形式の信頼度について評価を行った結果をまとめたものである。

 調査では,ARLの参加館175館がオンラインで公開している253の機関リポジトリもしくは電子図書館サービスから,118の方針を入手し,分析の対象としている。方針には,合計174件のファイル形式が記載されており,オンラインで公開されている集計表によれば,タイプ別の内訳は,テキスト/ドキュメント36件,画像29件,表/データベース28件,音声19件,コンピュータプログラム17件,動画15件,アプリケーション14件,プレゼンテーション10件,地理空間情報6件となっている。

 これらのファイル形式のべ2,274件について,各方針において「高い信頼度」「中程度の信頼度」のいずれに分類されているかを調べている。「高い信頼度」は,機能的な再現性が保障され,標準化や信頼できる形式への変換が予定されているもの,あるいは,「強く推奨される」などの信頼性の高い用語で表現されているもの,電子図書館プログラムにおけるデジタル化のガイドラインで義務付けられているもの,とされている。また,「中程度の信頼度」は,ビット列レベルの保存を行うのみで機能的な再現性までは保障されないもの,「脆弱な」,「信頼性が低い」など信頼度が比較的低い用語で表現されているもの,受動的に受け入れられたものとされている。

 高い信頼度に分類される回数が多い形式は,TIFF(88回),プレーンテキスト(52回),PDF(49回),Waveform Audio File Format: WAV(47回),XML(47回)であった。中程度の信頼度に分類される回数が多い形式は,Quicktime(47回),Microsoft Excel(39回),Microsoft Word(38回),Microsoft Powerpoint(38回),RealAudio(35回) であった。

 さらに,信頼度の評価指標として,各形式について,高い信頼度に分類された回数から中程度に分類された回数を引いた値について,出現回数全体に占める割合を算出している。この割合が高いものは,CSVファイル(73%),MARC(68%),TIFF(53%),Audio Interchange File Format (53%),プレーンテキスト(51%)であった。ドキュメントや画像については,この値が比較的高い形式が多いのに対し,アプリケーション,コンピュータプログラム,地理空間情報,プレゼンテーションはこの値がマイナスになる形式ばかりで,信頼度の低いものが多かった。なお,表/データベースと動画のタイプでは,高い信頼度に分類された回数が中程度の信頼度に分類された回数より多い形式は1件ずつ,音声は2件しかなかった。

 調査では,ファイル形式の方針を一から策定している機関がわずかであることも指摘されている。熟慮された方針のよい事例としては,フロリダ州内の大学システムによる“Florida Digital Archive: FDA File Preservation Strategies by Format”,ミシガン大学の“Deep Blue Preservation and Format Support”,ボストン大学の“Boston University's digital preservation policy”,ミネソタ大学の“University of Minnesota Digital Conservancy”が挙げられている。また,広く普及しているリポジトリ管理ソフトのガイドラインを採用,あるいは自館用に修正して使用する機関も多く,DSpaceの開発元であるマサチューセッツ工科大学の“MIT's file format policies”や,オープンソースの電子情報保存システムである“Archivematica”の“Format Policy Registry Requirements”がよく利用されているという。

 また,ファイル形式の方針が,比較的小規模なデータ管理の実績を根拠として策定されていることも指摘されている。中程度の信頼度に分類される形式は,電子情報の長期保存の評価手法を厳格に適応したものというより,学内にその形式のユーザが存在した等の現実を反映したものと推測されている。現状では,図書館でのデジタル化等に使用される画像のファイル形式,ウェブ上の学術情報流通で使用されるテキストのファイル形式については,信頼度の高い形式があるが,表/データベースや動画のファイルは,信頼度が比較的低く,アプリケーション,コンピュータプログラム,地理空間情報,プレゼンテーションについては,信頼度が低い形式しか見いだされなかった。単に形式が方針に合致しているか否かをチェックするだけでなく,機関リポジトリや電子図書館サービスでアクセスを提供していくべきファイル形式がどれなのかという視点で,方針策定から再検討していくべきであると指摘されている。

関西館図書館協力課・篠田麻美

Ref:
http://www.dlib.org/dlib/march14/rimkus/03rimkus.html
http://hdl.handle.net/2142/47421