オランダ王立図書館が2種類の大規模データセットを公開―18世紀オランダ語書籍と2世紀にわたる議会文書

オランダ王立図書館(KB)がこのたび2種類の大規模データセットを公開しました。

ひとつはEarly Dutch Books Online(EDBO)と名付けられており、1781年から1800年に出版された11,240冊のオランダ語書籍(タイトルベースでは9,710件)をデジタル化したもので、総ページ数は200万以上に及びます。メタデータ、PDFファイル、各ページの画像ファイル、OCRテキスト、単語の登場位置の情報(Analyzed Layout and Text Object:ALTO)といったデータが、API経由で利用できます。総データ容量は1.2TBとされています。

もうひとつは1814年から1995年という期間の議会文書です。こちらの総データ容量は30TBとされています。

Early Dutch Books Online(オランダ王立図書館)
http://www.kb.nl/banners-apis-en-meer/dataservices-apis/early-dutch-books-online

Staten-Generaal Digitaal(オランダ王立図書館)
http://www.kb.nl/banners-apis-en-meer/dataservices-apis/staten-generaal-digitaal

National Library of the Netherlands releases two large datasets(OpenGLAM 2012/12/5付け記事)
http://openglam.org/2012/12/05/national-library-of-the-netherlands-releases-two-large-datasets/