デジタル保存

英・電子情報保存連合(DPC)、組織のデジタル保存における成熟度の測定ツール“DPC Rapid Assessment Model”を公開

2019年9月19日、英・電子情報保存連合(DPC)は、2019年9月16日から20日にかけてオランダ・アムステルダムで開催されている電子情報保存に関する国際会議“iPRES2019”において、組織のデジタル保存における成熟度の測定ツール“DPC Rapid Assessment Model”を公開したことを発表しました。

デジタル保存の各要素に関する11のセクションからなり、各セクションについて自機関の状況に応じ5段階で評価を行う仕組みとなっています。デジタル保存に携わる組織であれば、種類や規模、保存するコンテンツの種類を問わずに使用できるように、また、短時間で容易に実施できるように設計されています。DPCでは、このツールを使用して毎年進捗を確認し、目標の達成状況を評価することを推奨しています。

ツールはDPCと英国の原子力廃止措置機関(NDA)との共同開発であり、Adrian Brown氏の2013年の著書“Practical Digital Preservation:A how-to guide for organizations of any size”で提示されたデジタル保存成熟度モデルをベースとして改良を加えています。ツールは無料で利用可能ですが、DPCのメンバーに限り、DPCの他機関との結果比較機能が提供されるとあります。

テキストファイルのファイルフォーマット識別に関する英国国立公文書館(TNA)の研究プロジェクト(記事紹介)

英・電子情報保存連合(DPC)の2019年9月2日、13日付けのブログ記事において、テキストファイルのファイルフォーマット識別に関する英国国立公文書館(TNA)の研究プロジェクト“Text File Format Identification”が紹介されています。筆者はTNAの研究員であるSanthilata Kuppili Venkata氏です。

プログラムのソースコード、データ記述ファイル(XML等)、構成ファイル等を含め、デジタル保存の対象となりうるテキストファイルの種類は多岐に及びますが、ファイルの拡張子に誤りや欠落があった場合、ファイルの利用に困難が生じるという問題があります。

この研究プロジェクトでは、拡張子ではなくテキストファイル内部の記述内容に見られる特徴に基づいて、機械的にファイルフォーマットを識別できるようにすることを目指しています。記事中では、識別プログラムのプロトタイプとして、.py、.java、.txt、.csv、.tsvの5種類のファイルフォーマットに限定したデータコーパスを準備し、機械学習アルゴリズム等を活用することにより5種類の識別を高精度で行えるようにしたことが報告されています。

米国国立公文書館(NARA)、電子的な記録管理への移行に備え“Digital Preservation Framework”を公開しパブリックコメントを募集

2019年9月16日、米国国立公文書館(NARA)が“Digital Preservation Framework”をGitHubで公開し、11月1日までパブリックコメントを求めています。

2022年12月31日における電子的な記録管理への移行に備え、デジタルファイルにおけるリスクの特定やその対応の優先順位をまとめ、多様なファイルフォーマットを保存するための計画を作成したものです。

寄せられた意見を受けて更新された後、正式版が公開されます。

今後もリスクの変化、新しい技術やフォーマットの登場に合わせて継続的に更新するとしています。

National Archives Releases Digital Preservation Framework for Public Comment(NARA,2019/9/16)
https://www.archives.gov/press/press-releases/2019/nr19-77

英・電子情報保存連合(DPC)、2019/2020年度の新しい活動計画を示した“DPC Prospectus 2019 – 2020”を公開

2019年9月6日、英・電子情報保存連合(DPC)、2019/2020年度の新しい活動計画を示した“DPC Prospectus 2019 – 2020”の公開を発表しました。

公開された“DPC Prospectus 2019 – 2020”では、入門レベルの研修のオンライン化・「Eメール保存研修」や「ウェブアーカイビング」等の中級レベル研修新設といった研修制度の見直し、各組織がデジタル保存機能を迅速に自己評価するためのツール“DPC Rapid Assessment Model”の公開、2019年11月7日の“World Digital Preservation Day”でのイベント開催、保存の危機に晒されているデジタルコンテンツをリスト化した“BitList of Digitally Endangered Species”の新版発行など、DPCの2019/2020年度の活動計画が示されています。

“DPC Prospectus 2019 – 2020”は英語版だけでなく、アラビア語版・フランス語版・ドイツ語版・スペイン語版も公開されています。

英・電子情報保存連合(DPC)に米・イェール大学図書館が加盟

2019年8月20日、英・電子情報保存連合(DPC)は、米・イェール大学図書館がDPCの
associate memberとして加盟したことを発表しました。

イェール大学図書館には2013年以来取り組まれているデジタル保存プログラムにより保存すべきデジタル資産が多数あります。また、デジタル資産の長期保存へ投資する利害関係者コミュニティの活動も活発です。現在同館では、デジタル保存を行う全ての人が気軽に参加できるように、エミュレーションとソフトウェア保存を「平常業務(business as usual)」化する活動や研究データ保存に関する将来の活動を促進させる資金提供計画の検討、デジタル保存の自動化や研究データへのアクセス維持に関わる課題の調整などが取り組まれています。

DPCのExecutive Directorを務めるWilliam Kilbride氏は「イェール大学図書館がDPCと提携を結び、米国の学術コミュニティとDPCとのパートナーシップが強化されることは大変喜ばしい」とコメントしています。

英・シェフィールド大学図書館のファイルフォーマット識別プログラム(記事紹介)

英・電子情報保存連合(DPC)の2019年8月23日付けのブログ記事において、英・シェフィールド大学図書館の学生プロジェクトで開発されたファイルフォーマット識別プログラムが紹介されています。

電子ファイルとともに当該ファイルのメタデータ情報をアーカイブ内で保存するに際し、ファイルフォーマットは重要なメタデータとなりますが、同館ではファイルフォーマットの識別を可能な限り自動化するために、“Sheffield Library Information Metadata program”(SLIM)というPython製プログラムを開発しました。

SLIMは複数のファイルフォーマット識別ツールを組み合わせて使用しており、それらの結果が一致する場合は特定されたとみなし、一致しなかった場合は、最も多い結果を示すとともにフラグを立てる仕組みとなっています。現在使用している識別ツールとして、JHOVE、DROID、unix fileコマンド、ffprobe、md5 ハッシュ、Pythonのcsvreaderモジュール、機械学習による分類器(machine learning classifier)を挙げています。

記事中では、分類器の作成プロセスや、分類器によりSLIMの識別精度が大幅に向上したこと等も紹介されています。

Open Preservation Foundation(OPF)、加盟団体へのアンケート調査結果のハイライトを公表:デジタル保存の現状を調査

デジタル資料の長期保存を目指す非営利団体Open Preservation Foundation(OPF)の2019年8月15日付けのブログ記事において、デジタル保存の現状について、加盟団体に対し行ったアンケート調査結果のハイライトが紹介されています。

アンケート調査は2019年3月に開始され、加盟団体のうち21団体から回答がありました。記事では、2014年に行った前回調査の結果と比較しつつ、以下のような点が取り上げられています。

・オープンソースの技術について、2014年調査では回答者の8%が利用していないと回答していたが、2019年調査では全員が現在何らかの形でオープンソースの技術を利用していると回答した。

・OPFはデジタル保存に役立つオープンソースのツール開発に携わっているが、加盟団体間でのツール利用が増加している。ファイルフォーマットの判別等を行うツールJHOVEは、2014年調査での利用率は回答者の64%であったが、2019年調査では95%を超える利用率であった。また、2019年調査では、JPEG2000フォーマットの検証ツールJpylyzerの利用率は71%、PDF/Aフォーマットの検証ツールveraPDFの利用率は57%であった。

デジタル遺産を守る:英・電子情報保存連合(DPC)の取り組み(記事紹介)

米国アーキビスト協会(SAA)の電子記録部会(Electronic Records Section:ERS)によるブログ“bloggERS!”は、2019年8月13日に英・電子情報保存連合(DPC)の取り組みを紹介する記事“Securing Our Digital Legacy: An Introduction to the Digital Preservation Coalition”を公開しました。

記事の筆者は、DPCにおける労働力開発の責任者(Head of Workforce Development)であり、DPCが作成しているデジタル保存のハンドブック“Digital Preservation Handbook”の編集主幹等を務めるSharon McMeekin氏です。

記事中では、DPCの概要のほか、コミュニティエンゲージメント、アドヴォカシー、労働力開発、能力構築、優れた実践・基準の特定と開発等といったDPCの活動の紹介が行われています。記事末尾では将来計画への言及もあり、現在会員の75%は英国・アイルランドであるものの徐々にそれ以外の国のメンバーが増えつつあること、資料の多言語化等の方策を通じ今後より組織としての国際化を進めること等が述べられています。

オーストラリア国立図書館、デジタルデポジットシステム“National edeposit (NED)”の公開を発表:オーストラリア国内の電子出版物の納本受付・管理・長期保存等を担うサービス

2019年8月12日、オーストラリア国立図書館は、オーストラリアの国立及び州立・準州立の図書館の協力により、デジタルデポジットシステム“National edeposit (NED)”を公開したことを発表しました。オーストラリア国内の電子出版物の納本受付・管理・長期保存等を担うサービスです。

オーストラリアの法定納本制度では、国立及び州立・準州立の図書館が、所管地域の全ての出版物を収集することとなっていますが、今回のNED公開により、著者、出版社はNEDを通じた電子出版物の納本が可能となります。

ウェブアーカイブツールWebrecorderが新機能“Autopilot”を公開:特定サイトのキャプチャを自動化

ウェブアーカイブツールWebrecorderの2019年8月14日付けブログ記事において、技術的に複雑なウェブサイトのキャプチャを自動化する新機能“Autopilot”の公開が発表されています。

現在、FacebookやTwitterのタイムライン、InstagramのユーザーアカウントやYoutubeなど、特定のウェブサイトについては、キャプチャ時にそれらのウェブサイト用にカスタマイズされた自動アクションを利用できます。記事中では、今後対応するウェブサイトを増やしていく考えが示されています。

それら以外のウェブサイトでも機能は利用できるものの、現時点では、ページのスクロール及びページに埋め込まれた動画・音声の再生を含む、任意のページで機能するより一般的なアクションを行うとあります。

Introducing Webrecorder Autopilot(Webrecorder Blog, 2019/8/14)
https://blog.webrecorder.io/2019/08/14/autopilot

ページ