2021年6月17日、国立情報学研究所音声資源コンソーシアム(NII-SRC)は、音声コーパス「日本語単一話者オーディオブック ・紙芝居朗読音声コーパス(J-KAC)」を提供開始しました。
日本語の小説・紙芝居を,プロの男性声優1人が多様なスタイルやキャラクタで朗読した計9時間分の音声データからなるものです。
また、2021年7月12日、同コンソーシアムは、「日本語多話者オーディオブックコーパス(J-MAC)」を提供開始しました。
こちらは、小説24作品のオーディオブック延べ74点について,章や段落に構造化し振り仮名を付与したテキストに,文単位での時間情報を付与したものです。
NIIでは大学等の研究者が作成したデータセットを「情報学研究データリポジトリ(IDR)」で受け入れており、「日本語単一話者オーディオブック・紙芝居朗読音声コーパス(J-KAC)」および「日本語多話者オーディオブックコーパス(J-MAC)」は、東京大学の高道慎之介氏を中心に構築されたものを「研究者等提供データセット受入要項」に基づき受入・提供するものです。IDRのウェブサイトからのオンライン申請にて無償で入手可能ですが、利用は研究目的に限られます。
「日本語単一話者オーディオブック・紙芝居朗読音声コーパス(J-KAC)」提供開始(NII,2021/6/17)
https://www.nii.ac.jp/news/2021/0617.html
「日本語多話者オーディオブックコーパス(J-MAC)」提供開始(NII,2021/7/12)
https://www.nii.ac.jp/news/2021/0712.html
参考:
国立情報学研究所(NII)、情報学研究データリポジトリ(IDR)への大学等研究者提供データセット受入に関する申請受付を開始
Posted 2019年10月1日
https://current.ndl.go.jp/node/39157
E1755 – 国立情報学研究所におけるデータセット共同利用の取組
カレントアウェアネス-E No.296 2016.01.21
https://current.ndl.go.jp/e1755