Googleが、収集したウェブページの文字データを利用して、1兆語にも及ぶ単語を収めた巨大なコーパス(コンピュータによる検索が可能な言語データの集まり)を作ったそうです。近く、Linguistic Data ConsortiumからDVD6枚組みにて配布される予定だそうです。
All Our N-gram are Belong to You. Official Google Research Blog.
http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html
コーパスとは. はてな.
http://d.hatena.ne.jp/keyword/%A5%B3%A1%BC%A5%D1%A5%B9