2022年12月9日、国立国会図書館(NDL)のNDLラボが、「NDL Ngram Viewer」のソースコードとngramのデータセットを公開しました。
ソースコードはクリエイティブ・コモンズ・ライセンスのCC BY、データセットはPDMの利用条件で提供されています。データセットには、2021年度のデジタル化資料のOCRテキスト化事業で作成したOCRテキストデータの内、著作権保護期間が満了した図書資料約28万点のキーワードの頻度統計情報がまとめられています。
NDL Ngram Viewerのソースコードとngramのデータセットを公開しました(NDLラボ, 2022/12/9)
https://lab.ndl.go.jp/news/2022/2022-12-09/
NDL Ngram Viewer
https://lab.ndl.go.jp/ngramviewer/
ndl-lab / ndlngramviewer_v1(GitHub)
https://github.com/ndl-lab/ndlngramviewer_v1
ndl-lab / ndlngramdata(GitHub)
https://github.com/ndl-lab/ndlngramdata
参考:
国立国会図書館(NDL)の「NDL Ngram Viewer」、デジタルアーカイブ学会第4回学会賞・学術賞(基盤・システム)を受賞 2022-12-07
https://current.ndl.go.jp/car/167552
E2533 – NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
カレントアウェアネス-E No.442 2022.09.01
https://current.ndl.go.jp/e2533