2024年1月29日、国立国会図書館(NDL)は、国立国会図書館インターネット資料収集保存事業(WARP)において収集保存した数十億件のファイルのURLリストを提供することについて、国立情報学研究所(NII)と合意しました。
提供するURLリストは、NIIにおける大規模言語モデル(LLM)の構築を目的として、主にコーパス用データを収集するために利用される予定です。
なお、これはNDLとNIIの間で締結した「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づく協力の一つです。
国立情報学研究所における大規模言語モデル構築への協力について(NDL, 2024/1/30)
https://www.ndl.go.jp/jp/news/fy2023/240130_01.html
関連:
LLM勉強会(NII)
https://llm-jp.nii.ac.jp/
参考:
E1046 – 国立国会図書館,インターネット情報の制度収集を開始
カレントアウェアネス-E No.170 2010.04.28
https://current.ndl.go.jp/e1046