国文学研究資料館、『国文研古典籍データセット(第0.1版)』を公開へ

国文学研究資料館が、古典籍を自由に研究・活用してもらうため、国立情報学研究所の協力のもと、同館所蔵の日本の古典籍350点の全冊画像データ(画像約6万3千コマ)とその書誌データを、同研究所の「情報学研究データリポジトリIDR」より、データセットとして、2015年11月10日から一般公開すると発表しています。

データセットの構成は以下の通りとのことです。

・古典籍画像データ:350点におよぶ日本の古典作品について、その全冊(約63,000コマ)のJPEG形式の画像データ。
・書誌データ:350点に関する当館作成の書誌データをテキスト形式でまとめたもの。一部の作品には当館で付与した略解題も含む。
・本文テキストデータ:一部の作品について、その翻刻本文のテキストデータを付す。
・タグデータ:一部の作品について、当館で付与作業を行っている1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式のデータとして提供。

また、『国文研古典籍データセット(第0.1版)』は、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)で提供されるとのことです。

[プレスリリース] 貴重な古典籍がもっと身近に ―国文研古典籍データセットの公開―(国文学研究資料館,2015/11/4)
http://www.nijl.ac.jp/pages/cijproject/news_column_20151104.html

国文学研究資料館の「古典籍データセット」公開に協力/NIIの「情報学研究データリポジトリ」を通じて提供(国立情報学研究所,2015/11/4)
http://www.nii.ac.jp/news/2015/1104

参考:
【イベント】国文学研究資料館等、「歴史的典籍オープンデータワークショップ(アイデアソン)」を開催(12/18・京都)
http://current.ndl.go.jp/node/29589