2021年9月21日、国立国会図書館(NDL)のNDLラボが、振り仮名のデータセット「振り仮名注釈コーパス」2種類をGitHubで公開しました。
日本語のテキストを分かち書きにした上で、分割した箇所に振り仮名を付与したもので、青空文庫の公開作品のテキストデータに対し、視覚障害者情報総合ネットワーク「サピエ」が視覚障害者に提供している点字データに由来する振り仮名を付与して作成したものと、国立国会図書館が提供する書誌データを元に作成したものの2種類を公開したものです。
振り仮名注釈コーパスの公開について(NDLラボ, 2021/9/21)
https://lab.ndl.go.jp/news/2021/2021-09-21/
青空文庫及びサピエの点字データから作成した振り仮名のデータセット(GitHub)
https://github.com/ndl-lab/huriganacorpus-aozora
全国書誌データから作成した振り仮名のデータセット(GitHub)
https://github.com/ndl-lab/huriganacorpus-ndlbib
参考:
NDLラボ、ラベル付き画像データセット「NDL-ImageLabelデータセット」を公開
Posted 2021年7月2日
https://current.ndl.go.jp/node/44341
国立国会図書館、NDLラボで文字画像データセット(平仮名73文字版)を試験公開
Posted 2016年11月24日
https://current.ndl.go.jp/node/32980
国立国会図書館(NDL)、NDLラボのデータやプログラムをGitHubで公開
Posted 2019年8月26日
https://current.ndl.go.jp/node/38863
国立国会図書館、“NDLラボ”をスタート
Posted 2013年5月14日
http://current.ndl.go.jp/node/23494