テキストファイルのファイルフォーマット識別に関する英国国立公文書館(TNA)の研究プロジェクト(記事紹介)

英・電子情報保存連合(DPC)の2019年9月2日、13日付けのブログ記事において、テキストファイルのファイルフォーマット識別に関する英国国立公文書館(TNA)の研究プロジェクト“Text File Format Identification”が紹介されています。筆者はTNAの研究員であるSanthilata Kuppili Venkata氏です。

プログラムのソースコード、データ記述ファイル(XML等)、構成ファイル等を含め、デジタル保存の対象となりうるテキストファイルの種類は多岐に及びますが、ファイルの拡張子に誤りや欠落があった場合、ファイルの利用に困難が生じるという問題があります。

この研究プロジェクトでは、拡張子ではなくテキストファイル内部の記述内容に見られる特徴に基づいて、機械的にファイルフォーマットを識別できるようにすることを目指しています。記事中では、識別プログラムのプロトタイプとして、.py、.java、.txt、.csv、.tsvの5種類のファイルフォーマットに限定したデータコーパスを準備し、機械学習アルゴリズム等を活用することにより5種類の識別を高精度で行えるようにしたことが報告されています。

Motivation to Undertake File Format Identification Research for Plain Text Files(DPC, 2019/9/2)
https://www.dpconline.org/blog/file-format-id-research

How to correctly identify the file type of a text file from its contents? (DPC, 2019/9/13)
https://www.dpconline.org/blog/identify-file-type-of-a-text-file

参考:
英・シェフィールド大学図書館のファイルフォーマット識別プログラム(記事紹介)
Posted 2019年8月28日
http://current.ndl.go.jp/node/38894

英国政府から英国国立公文書館(TNA)へ、ボーンデジタルの記録の移管開始
Posted 2015年7月1日
http://current.ndl.go.jp/node/28799