HathiTrust、デジタル化資料のメタデータ等から成るデータセット“Extracted Features”のバージョン2.5を公開

2025年7月24日、米国の大学図書館等による共同リポジトリ事業であるHathiTrustが、デジタル化資料のメタデータ等から成るデータセット“Extracted Features”のバージョン2.5を公開しました。

同データセットは、HathiTrust Digital Library上のデジタル化資料約1,870万件分のメタデータや、資料の各ページに含まれる語数、行数、品詞等に関する定量的な情報を提供するものです。バージョン2.5では、2020年に公開されたバージョン2.0以来の大規模な更新が行われたとあります。

Extracted Features 2.5: New Release of Open-Access Dataset from the HathiTrust Research Center(HathiTrust, 2025/7/24)
https://www.hathitrust.org/blogs/extracted-features-2-5-new-release-of-open-access-dataset-from-the-hathitrust-research-center/

Extracted Features [v.2.5](HathiTrust)
https://htrc.atlassian.net/wiki/spaces/COM/pages/975306753/Extracted+Features+v.2.5

参考:
HathiTrust、約1,370万件のデジタル化資料中に含まれる50億ページ、2兆語超のデータから抽出した特徴データセットを公開 [2016年12月06日]
https://current.ndl.go.jp/car/33046