Google、日本語2,550億語から作成したNグラムデータを公開

Googleが、ウェブから抽出した日本語約200億文(約2,550億語)から作成したNグラムデータ(1〜7グラム)を、NPO法人言語資源協会を通じ、学術目的限定で有償公開しました。

大規模日本語 n-gram データの公開 – Google Japan Blog
http://googlejapan.blogspot.com/2007/11/n-gram.html

GSK2007-C Web日本語Nグラム第1版 – 言語資源協会
http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html

グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 – IT Pro
http://pc.nikkeibp.co.jp/article/NEWS/20071101/286215/