NDLラボ、「NDL Ngram Viewer」の対象範囲の拡大及びソースコード・データセットの追加公開を発表

2023年1月10日、国立国会図書館(NDL)のNDLラボが、「NDL Ngram Viewer」の対象範囲を拡大し、ソースコード・データセットを追加公開したことを発表しました。

著作権保護期間が満了した図書資料約28万点に加え、今回新たに、著作権保護期間内の図書資料約69万点及び雑誌資料約132万点が、「NDL Ngram Viewer」の対象範囲となりました。これにより、対象範囲の資料は230万点となり、単語・フレーズは従来の約8.3億語から約17億語へ拡大しました。

ソースコードはクリエイティブ・コモンズ・ライセンスのCC BY、データセットはPDMの利用条件で提供されています。

NDL Ngram Viewerの対象範囲の拡大及びソースコード・データセットの追加公開について(NDLラボ, 2023/1/10)
https://lab.ndl.go.jp/news/2022/2023-01-10/

NDL Ngram Viewer
https://lab.ndl.go.jp/ngramviewer/

ndl-lab/ndlngramviewer_v2(GitHub)
https://github.com/ndl-lab/ndlngramviewer_v2

ndl-lab / ndlngramdata(GitHub)
https://github.com/ndl-lab/ndlngramdata

参考:
NDLラボ、「NDL Ngram Viewer」のソースコードとngramのデータセットを公開 2022-12-13
https://current.ndl.go.jp/car/167802

E2533 – NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
カレントアウェアネス-E No.442 2022.09.01
https://current.ndl.go.jp/e2533