国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」をオンライン試験公開

国立国語研究所が作成しているKOTONOHA「現代日本語書き言葉均衡コーパス」が、5月28日、オンラインで試験公開されました。

これは、現代日本語のさまざまな書き言葉データを大量に集積し、言語研究や言語施策に活用することを目指すもので、5月28日の段階では、各省庁刊行の白書のデータ約500万語分と、「Yahoo!知恵袋」のデータ約500万語分が検索対象になっています。今後は、国会会議録、新聞記事、文芸作品等のデータも追加される予定です。

なお、このコーパスの一部として、言語の流通実態を主対象とするサブコーパス「図書館サブコーパス」が構築されます。これは、東京都下の公立図書館のうち13館以上で所蔵されている図書から無作為抽出した図書のデータから作られるとのことです。

KOTONOHA「現代日本語書き言葉均衡コーパス」 検索デモンストレーション
http://www.kotonoha.gr.jp/demo/

「大規模書き言葉コーパスのオンライン試験公開〜KOTONOHA「現代日本語書き言葉均衡コーパス」〜 - 国立国語研究所
http://www.kokken.go.jp/syokai/press/07_01/