2026年3月24日、大学共同利用機関法人人間文化研究機構国立国語研究所が、従来の「現代日本語書き言葉均衡コーパス」(Balanced Corpus of Contemporary Written Japanese:BCCWJ)を拡充した「現代日本語書き言葉均衡コーパス 第2部」(BCCWJ2)の公開を発表しました。
BCCWJは、現代日本語の書き言葉の全体像を把握するために構築されたコーパスで、書籍、雑誌、新聞、白書、ウェブサイト、法律等からサンプリングした約1億語のデータを収録しています。
今回、従来のBCCWJの拡張として、2006年~2010年刊行の書籍からサンプリングした約2,300万語分が追加されました。今後は、2028年度末までに2006年~2025年のデータを追加し、2億語規模のコーパスとする計画としています。追加されたデータは、同研究所のウェブサイト「少納言」及び「中納言」(要利用登録)上で公開されています。
2025年度(国立国語研究所)
https://www.ninjal.ac.jp/news/2025/
※2026年3月24日付けで「『現代日本語書き言葉均衡コーパス 第2部(BCCWJ2)』を公開しました。」とあります。
@kokugoken(X, 2026/3/24)
https://x.com/kokugoken/status/2036361757497893309
BCCWJ2(国立国語研究所)
https://www2.ninjal.ac.jp/BCCWJ2/
関連:
現代日本語書き言葉均衡コーパス(BCCWJ)(国語研コーパスポータル)
https://clrd.ninjal.ac.jp/bccwj/index.html
参考:
国立国語研究所、「国語研日本語ウェブコーパス」の検索系「梵天」を一般公開 [2017年03月08日]
https://current.ndl.go.jp/car/33612
国立国語研究所、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」を公開 [2011年08月10日]
https://current.ndl.go.jp/car/18854
国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」をオンライン試験公開 [2007年5月29日]
https://current.ndl.go.jp/car/5918
