国立情報学研究所（NII）、約12兆トークンのコーパスで学習した新たな国産大規模言語モデル（LLM）をオープンソースライセンスで公開

2026年4月3日、国立情報学研究所（NII）が、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの良質なコーパスで学習した新たな国産大規模言語モデル（LLM）「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開したことを発表しました。

今回公開したモデルは最大約6万5,000トークンの入出力まで処理でき、一部ベンチマークにおいて、GPT-4oやQwen3-8Bを上回る性能を達成しているとあります。

現在、より大規模なパラメータを備えたモデルの開発を進めており、2026年度に順次公開予定としています。

約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開～一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成～（NII, 2026/4/3）
https://www.nii.ac.jp/news/release/2026/0403.html

参考：
国立情報学研究所（NII）、大規模言語モデルのプレビュー版「LLM-jp-3 172B beta1」を公開 [2024年09月20日]
https://current.ndl.go.jp/car/225658

図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

メインメニュー

国立情報学研究所（NII）、約12兆トークンのコーパスで学習した新たな国産大規模言語モデル（LLM）をオープンソースライセンスで公開

メインメニュー

現在地

類似の記事