2023年1月10日、国立国会図書館(NDL)のNDLラボが、「NDL Ngram Viewer」の対象範囲を拡大し、ソースコード・データセットを追加公開したことを発表しました。
著作権保護期間が満了した図書資料約28万点に加え、今回新たに、著作権保護期間内の図書資料約69万点及び雑誌資料約132万点が、「NDL Ngram Viewer」の対象範囲となりました。これにより、対象範囲の資料は230万点となり、単語・フレーズは従来の約8.3億語から約17億語へ拡大しました。
ソースコードはクリエイティブ・コモンズ・ライセンスのCC BY、データセットはPDMの利用条件で提供されています。
NDL Ngram Viewerの対象範囲の拡大及びソースコード・データセットの追加公開について(NDLラボ, 2023/1/10)
https://lab.ndl.go.jp/news/2022/2023-01-10/
NDL Ngram Viewer
https://lab.ndl.go.jp/ngramviewer/
ndl-lab/ndlngramviewer_v2(GitHub)
https://github.com/ndl-lab/ndlngramviewer_v2
ndl-lab / ndlngramdata(GitHub)
https://github.com/ndl-lab/ndlngramdata
参考:
NDLラボ、「NDL Ngram Viewer」のソースコードとngramのデータセットを公開 2022-12-13
https://current.ndl.go.jp/car/167802
E2533 – NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
カレントアウェアネス-E No.442 2022.09.01
https://current.ndl.go.jp/e2533