英・シェフィールド大学図書館のファイルフォーマット識別プログラム(記事紹介)

英・電子情報保存連合(DPC)の2019年8月23日付けのブログ記事において、英・シェフィールド大学図書館の学生プロジェクトで開発されたファイルフォーマット識別プログラムが紹介されています。

電子ファイルとともに当該ファイルのメタデータ情報をアーカイブ内で保存するに際し、ファイルフォーマットは重要なメタデータとなりますが、同館ではファイルフォーマットの識別を可能な限り自動化するために、“Sheffield Library Information Metadata program”(SLIM)というPython製プログラムを開発しました。

SLIMは複数のファイルフォーマット識別ツールを組み合わせて使用しており、それらの結果が一致する場合は特定されたとみなし、一致しなかった場合は、最も多い結果を示すとともにフラグを立てる仕組みとなっています。現在使用している識別ツールとして、JHOVE、DROID、unix fileコマンド、ffprobe、md5 ハッシュ、Pythonのcsvreaderモジュール、機械学習による分類器(machine learning classifier)を挙げています。

記事中では、分類器の作成プロセスや、分類器によりSLIMの識別精度が大幅に向上したこと等も紹介されています。

File format identification: A student project at the University of Sheffield Library(DPC, 2019/8/23)
https://www.dpconline.org/blog/file-format-identification-sheffi-uni

参考:
Open Preservation Foundation(OPF)、加盟団体へのアンケート調査結果のハイライトを公表:デジタル保存の現状を調査
Posted 2019年8月19日
http://current.ndl.go.jp/node/38810