国立情報学研究所(NII)、約12兆トークンのコーパスで学習した新たな国産大規模言語モデル(LLM)をオープンソースライセンスで公開

2026年4月3日、国立情報学研究所(NII)が、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの良質なコーパスで学習した新たな国産大規模言語モデル(LLM)「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開したことを発表しました。

今回公開したモデルは最大約6万5,000トークンの入出力まで処理でき、一部ベンチマークにおいて、GPT-4oやQwen3-8Bを上回る性能を達成しているとあります。

現在、より大規模なパラメータを備えたモデルの開発を進めており、2026年度に順次公開予定としています。

約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開~一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成~(NII, 2026/4/3)
https://www.nii.ac.jp/news/release/2026/0403.html

参考:
国立情報学研究所(NII)、大規模言語モデルのプレビュー版「LLM-jp-3 172B beta1」を公開 [2024年09月20日]
https://current.ndl.go.jp/car/225658