NDLラボ、振り仮名のデータセット「振り仮名注釈コーパス」(2種類)を公開

2021年9月21日、国立国会図書館(NDL)のNDLラボが、振り仮名のデータセット「振り仮名注釈コーパス」2種類をGitHubで公開しました。

日本語のテキストを分かち書きにした上で、分割した箇所に振り仮名を付与したもので、青空文庫の公開作品のテキストデータに対し、視覚障害者情報総合ネットワーク「サピエ」が視覚障害者に提供している点字データに由来する振り仮名を付与して作成したものと、国立国会図書館が提供する書誌データを元に作成したものの2種類を公開したものです。

振り仮名注釈コーパスの公開について(NDLラボ, 2021/9/21)
https://lab.ndl.go.jp/news/2021/2021-09-21/

青空文庫及びサピエの点字データから作成した振り仮名のデータセット(GitHub)
https://github.com/ndl-lab/huriganacorpus-aozora

全国書誌データから作成した振り仮名のデータセット(GitHub)
https://github.com/ndl-lab/huriganacorpus-ndlbib

参考:
NDLラボ、ラベル付き画像データセット「NDL-ImageLabelデータセット」を公開
Posted 2021年7月2日
https://current.ndl.go.jp/node/44341

国立国会図書館、NDLラボで文字画像データセット(平仮名73文字版)を試験公開
Posted 2016年11月24日
https://current.ndl.go.jp/node/32980

国立国会図書館(NDL)、NDLラボのデータやプログラムをGitHubで公開
Posted 2019年8月26日
https://current.ndl.go.jp/node/38863

国立国会図書館、“NDLラボ”をスタート
Posted 2013年5月14日
http://current.ndl.go.jp/node/23494