HathiTrust、約1,370万件のデジタル化資料中に含まれる50億ページ、2兆語超のデータから抽出した特徴データセットを公開

2016年12月5日、HathiTrustはHathiTrust Digital Library(HTDL)に含まれるデジタル化資料約1,370万件から抽出した特徴データセット、”HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset”のバージョン1.0を公開しました。

このデータセットはHTDL内の各資料、各ページにおける語数、行数、品詞やその他の詳細事項に関する量的データを含んでおり、16~20世紀に発行された資料を対象に、歴史的・文化的トレンドの推移やあるトピックの隆盛、ある語の発生・浸透の過程等の調査に用いることができます。対象となるページ数は50億ページ以上、対象語数は2兆語以上に及びます。

Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset(HathiTrust、2016/12/5付け)
https://www.hathitrust.org/extracted-features-announcement

HTRC Extracted Features Dataset
https://analytics.hathitrust.org/datasets

参考:
HathiTrust Research Center、HathiTrustに含まれる全デジタルデータを研究者のテキストマイニング調査のために開放
Posted 2016年5月9日
http://current.ndl.go.jp/node/31536