国立国会図書館(NDL)、「青空文庫振り仮名注釈付き音声コーパスver.2」を公開

2025年3月7日、国立国会図書館(NDL)のNDLラボが、「青空文庫振り仮名注釈付き音声コーパスver.2」を公式GitHub上で公開したと発表しました。

青空文庫で公開されている著作権保護期間が満了した作品のテキストデータと、視覚障害者情報総合ネットワーク「サピエ」が視覚障害者に提供している音声DAISYデータとを照合して構築した、単語とその読みの情報に関するデータセットです。

今回公開されたver.2では、2023年度に公開した同データセット(ver.1)の構築手順に技術的な改良を加えることで、よりコーパスサイズを増やしたデータセットの構築を行いました。

青空文庫振り仮名注釈付き音声コーパスver.2の公開について(NDLラボ, 2025/3/7)
https://lab.ndl.go.jp/news/2024/2025-03-07/

hurigana-speech-corpus-aozora(GitHub)
https://github.com/ndl-lab/hurigana-speech-corpus-aozora

参考:
国立国会図書館(NDL)、「青空文庫振り仮名注釈付き音声コーパス」を公開 [2024年02月08日]
https://current.ndl.go.jp/car/210098