NVIDIA研发的统一推理与非推理任务大语言模型，采用混合MoE架构，支持英、德、西等多语言，可生成推理轨迹提升准确率，适用于AI代理、聊天机器人等应用，已就绪商用。【此简介由AI生成】

SsystemAdd vLLM example w/ 1M context length (#38 )

文件	最后提交记录	最后更新时间
nemo-evaluator-launcher-configs	Upload local_nvidia_nemotron_3_nano_30b_a3b.yaml	5 个月前
.gitattributes	Upload accuracy_chart.png	5 个月前
README.md	Add vLLM example w/ 1M context length (#38) - Add vLLM example w/ 1M context length (a7827f58c69fb9db6b791916cae7cc86bef763bf)	4 个月前
accuracy_chart.pngLFS	Upload accuracy_chart.png	5 个月前
bias.md	Upload 4 files	5 个月前
chat_template.jinja	Upload 2 files	5 个月前
config.json	Update config.json (#37) - Update config.json (863a6ca576039edbf51691104845a049dd27e4da)	4 个月前
configuration_nemotron_h.py	Upload folder using huggingface_hub	5 个月前
explainability.md	Upload 4 files	5 个月前
generation_config.json	Upload folder using huggingface_hub	5 个月前
model-00001-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00002-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00003-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00004-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00005-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00006-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00007-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00008-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00009-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00010-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00011-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00012-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model-00013-of-00013.safetensorsLFS	Upload folder using huggingface_hub	5 个月前
model.safetensors.index.json	Upload folder using huggingface_hub	5 个月前
modeling_nemotron_h.py	Upload modeling_nemotron_h.py	5 个月前
nano_v3_reasoning_parser.py	Upload nano_v3_reasoning_parser.py	5 个月前
notebook.ipynb	Upload notebook.ipynb (#1) - Upload notebook.ipynb (9a9fe6832ea32304dcfa97edca75e5867069aa3a) Co-authored-by: ben burtenshaw <burtenshaw@users.noreply.huggingface.co>	5 个月前
privacy.md	Upload 4 files	5 个月前
safety.md	Upload 4 files	5 个月前
special_tokens_map.json	Upload folder using huggingface_hub	5 个月前
tokenizer.jsonLFS	Upload folder using huggingface_hub	5 个月前
tokenizer_config.json	Upload 2 files	5 个月前

自动翻译

library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ pipeline_tag: text-generation language:

en
es
fr
de
ja
it tags:
nvidia
pytorch datasets:
nvidia/Nemotron-Pretraining-Code-v1
nvidia/Nemotron-CC-v2
nvidia/Nemotron-Pretraining-SFT-v1
nvidia/Nemotron-CC-Math-v1
nvidia/Nemotron-Pretraining-Code-v2
nvidia/Nemotron-Pretraining-Specialized-v1
nvidia/Nemotron-CC-v2.1
nvidia/Nemotron-CC-Code-v1
nvidia/Nemotron-Pretraining-Dataset-sample
nvidia/Nemotron-Competitive-Programming-v1
nvidia/Nemotron-Math-v2
nvidia/Nemotron-Agentic-v1
nvidia/Nemotron-Math-Proofs-v1
nvidia/Nemotron-Instruction-Following-Chat-v1
nvidia/Nemotron-Science-v1
nvidia/Nemotron-3-Nano-RL-Training-Blend track_downloads: true

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

模型概述

模型开发者： NVIDIA Corporation

模型日期：

2025年9月 - 2025年12月

数据时效性：

训练后数据的截止日期为2025年11月28日。
预训练数据的截止日期为2025年6月25日。

描述

Nemotron-3-Nano-30B-A3B-BF16是由NVIDIA从头开始训练的大型语言模型（LLM），设计为适用于推理和非推理任务的统一模型。它通过首先生成推理轨迹，然后得出最终响应来响应用户的查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。如果用户希望模型直接提供最终答案而不展示中间推理过程，可以进行相应设置，尽管对于需要推理的较难提示，其准确性会略有下降。相反，允许模型先生成推理轨迹通常会为查询和任务带来更高质量的最终解决方案。

该模型采用混合专家混合（Mixture-of-Experts, MoE）架构，由23个Mamba-2和MoE层以及6个注意力层组成。每个MoE层包含128个专家和1个共享专家，每个token激活6个专家。该模型的活跃参数为35亿，总参数为300亿。

支持的语言包括：英语、德语、西班牙语、法语、意大利语和日语。使用Qwen进行了改进。

此模型已准备好用于商业用途。

什么是Nemotron？

NVIDIA Nemotron™是一系列开放模型，包含开放权重、训练数据和训练方法，为构建专业AI智能体提供卓越的效率和准确性。

要开始使用，您可以参考下方的快速入门指南。

功能投票

我们希望听取您的意见！分享您的想法，为重要的功能投票，帮助塑造Nemotron的未来。

许可/使用条款

管辖条款：使用本模型受NVIDIA Nemotron开放模型许可协议约束。

推理基准评估

我们在以下基准上对模型进行了评估：

任务	NVIDIA-Nemotron-3-Nano-30B-A3B-BF16	Qwen3-30B-A3B-Thinking-2507	GPT-OSS-20B
通用知识
MMLU-Pro	78.3	80.9	75.0
推理能力
AIME25（无工具）	89.1	85.0	91.7
AIME25（有工具）	99.2	-	98.7
GPQA（无工具）	73.0	73.4	71.5
GPQA（有工具）	75.0	-	74.2
LiveCodeBench（v6 2025-08–2025-05）	68.3	66.0	61.0
SciCode（子任务）	33.3	33.0	34.0
HLE（无工具）	10.6	9.8	10.9
HLE（有工具）	15.5	-	17.3
MiniF2F pass@1	50.0	5.7	12.1
MiniF2F pass@32	79.9	16.8	43.0
智能体能力
Terminal Bench（困难子集）	8.5	5.0	6.0
SWE-Bench（OpenHands）	38.8	22.0	34.0
TauBench V2（航空领域）	48.0	58.0	38.0
TauBench V2（零售领域）	56.9	58.8	38.0
TauBench V2（电信领域）	42.2	26.3	49.7
TauBench V2（平均值）	49.0	47.7	48.7
BFCL v4	53.8	46.4*	-
对话与指令遵循
IFBench（提示词）	71.5	51.0	65.0
Scale AI Multi Challenge	38.5	44.8	33.8
Arena-Hard-V2（困难提示词）	72.1	49.6*	71.2*
Arena-Hard-V2（创意写作）	63.2	66.0*	25.9&
Arena-Hard-V2（平均值）	67.7	57.8	48.6
长上下文
AA-LCR	35.9	59.0	34.0
RULER-100@256k	92.9	89.4	-
RULER-100@512k	91.3	84.0	-
RULER-100@1M	86.3	77.5	-
多语言能力
MMLU-ProX（语言平均值）	59.5	77.6*	69.1*
WMT24++（en->xx）	86.2	85.6	83.2

所有评估结果均通过Nemo Evaluator SDK和Nemo Skills收集。用于评估的、通过NVIDIA Nemo Evaluator SDK打包的Nemo Skills开源容器可在此处找到。除Nemo Skills外，评估还使用了Tau-2 Bench、ArenaHard v2、AA_LCR的专用打包容器。包含所有配置的可复现教程可在Nemo Evaluator SDK示例中找到。配置文件也可在此HF仓库的此处获取。*表示准确度数值由我们测量。

部署地区：全球

应用场景

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 是一款通用推理与对话模型，适用于英语和编程语言。同时也支持其他非英语语言（英语、西班牙语、法语、德语、日语、意大利语）。该模型面向设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用的开发者。此外，该模型也适用于典型的指令遵循任务。

发布日期

2025 年 12 月 15 日，通过 Hugging Face 发布

参考资料

模型架构

架构类型：Mamba2-Transformer 混合专家模型（MoE）
网络架构：Nemotron 混合 MoE
模型参数数量：300 亿

模型设计

该模型使用 25 万亿 tokens 进行训练，批大小为 3072，并采用 Warmup-Stable-Decay（WSD）学习率调度策略，其中学习率预热阶段为 80 亿 tokens，峰值学习率为 1e-3，最小学习率为 1e-5。模型共包含 52 层，其中 MoE 层和 Mamba-2 层各 23 层，剩余 6 层采用分组查询注意力（GQA），包含 2 个分组。每个 MoE 层包含 128 个路由专家和 1 个共享专家，每个 token 激活 6 个专家。

训练方法

阶段 1：预训练

NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 模型通过爬取的和合成的代码、数学、科学及通用知识数据进行预训练。所有数据集均在本文档的训练、测试和评估数据集部分披露。预训练语料的主要部分在 Nemotron-Pre-Training-Datasets 集合中发布。
用于预训练的软件：Megatron-LM

阶段 2：有监督微调

模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进一步微调。所有数据集均在本文档的训练、测试和评估数据集部分披露。微调语料的主要部分在 Nemotron-Post-Training-v3 集合中发布。Data Designer 是用于准备这些语料库的库之一。

阶段 3：强化学习

模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中，使用同步 GRPO（Group Relative Policy Optimization）进行多环境强化学习。通过使用生成式奖励模型的 RLHF 进一步优化了对话质量。所有数据集均在本文档的 训练、测试和评估数据集 部分披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
用于强化学习的软件：NeMo RL、NeMo Gym

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 模型是上述工作的成果。

端到端训练方案可在 NVIDIA Nemotron 开发者仓库中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和后训练数据集的库之一。有关数据集和合成数据生成方法的更多详细信息，请参见技术报告 NVIDIA Nemotron 3 Nano。

输入

输入类型： 文本
输入格式： 字符串
输入参数： 一维（1D）：序列
最大输入大小： 100万 token
与输入相关的其他属性： 支持的语言包括：英语、西班牙语、法语、德语、日语、意大利语

输出

输出类型： 文本
输出格式： 字符串
输出参数： 一维（1D）：序列
最大输出大小： 100万 token

我们的 AI 模型经过专门设计和优化，可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），与仅使用 CPU 的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成

运行时引擎：NeMo 25.11.01
支持的硬件微架构兼容性：NVIDIA H100-80GB、NVIDIA A100
操作系统：Linux

将基础模型和微调模型集成到 AI 系统中时，需要使用特定用例的数据进行额外测试，以确保安全有效的部署。遵循 V 模型方法论，在单元和系统层面进行迭代测试和验证至关重要，这有助于在部署前降低风险、满足技术和功能要求，并确保符合安全和道德标准。

快速入门指南

使用 Transformers

以下代码片段展示了如何结合 Huggingface Transformers（在 4.57.3 版本上测试）使用此模型。我们建议使用 NeMo Framework 25.11.01，以确保所有必需的库均可用。

请注意，该模型支持高达 100 万 token 的上下文长度，但由于较高的显存需求，Hugging Face 配置中的默认上下文长度为 256k token。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16")
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

messages = [
    {"role": "user", "content": "Write a haiku about GPUs"},
]

tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    tokenized_chat,
    max_new_tokens=1024,
    temperature=1.0,
    top_p=1.0,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

temperature=1.0 和 top_p=1.0 推荐用于推理任务，而 temperature=0.6 和 top_p=0.95 推荐用于工具调用。

如果您想关闭推理功能，请在 apply_chat_template() 中添加 enable_thinking=False。默认情况下，enable_thinking 设为 True。


tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    enable_thinking=False,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

# Use Greedy Search for reasoning off
outputs = model.generate(
    tokenized_chat,
    max_new_tokens=32,
    do_sample=False,
    num_beams=1,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

与 vLLM 配合使用

有关如何将模型与 vLLM 配合使用的更多详细信息，请参见此使用指南。如果您使用的是 Jetson Thor 或 DGX Spark，请使用此 vllm 容器。

pip install -U "vllm>=0.12.0"

从 Hugging Face 仓库下载自定义解析器。

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16/resolve/main/nano_v3_reasoning_parser.py

使用自定义解析器启动 vLLM 服务器。

vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --served-model-name model \
  --max-num-seqs 8 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --port 8000 \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin nano_v3_reasoning_parser.py \
  --reasoning-parser nano_v3

在上述示例中，我们使用了256k的上下文长度。您可以将上下文大小增加至1M，以支持更长的上下文。

若要启用此功能，请按以下方式设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=1环境变量：

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --served-model-name model \
  --max-num-seqs 8 \
  --tensor-parallel-size 1 \
  --max-model-len 1M \
  --port 8000 \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin nano_v3_reasoning_parser.py \
  --reasoning-parser nano_v3

以下是 vLLM 的客户端代码示例。默认情况下，端点已启用推理功能。我们建议将 max_tokens 设置为较高的值（例如 10,000）。

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "model",
        "messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
        "max_tokens": 10000
    }'

如果您希望在 vLLM 中关闭推理功能，可以按以下步骤操作：
vLLM OpenAI curl 请求：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "model",
        "messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
        "chat_template_kwargs": {"enable_thinking": false}
    }'

vLLM OpenAI 客户端：

response = client.chat.completions.create(model=model, messages=messages, extra_body={"chat_template_kwargs": {"enable_thinking": False}})

与 TRT-LLM 配合使用

有关如何将模型与 TRT-LLM 配合使用的更多详细信息，请参见此手册。

# nano_v3 example yaml is https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/auto_deploy/nano_v3.yaml
trtllm-serve <model_path> \
--backend _autodeploy \
--trust_remote_code \
--reasoning_parser nano-v3 \
--tool_parser qwen3_coder \
--extra_llm_api_options nano_v3.yaml

与 SGLang 配合使用

有关如何将模型与 SGLang 配合使用的更多详细信息，请参见此手册。

python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --trust-remote-code \
  --tp 1 \
  --attention-backend flashinfer \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nano_v3

使用预算控制

思考预算使开发人员能够在保持高精度的同时满足响应时间目标——这在客户支持、自主代理步骤以及边缘设备等每毫秒都至关重要的场景中尤为关键。

借助预算控制，您可以为内部推理设置限制：

reasoning_budget：这是一个阈值，将尝试在推理跟踪中遇到的下一个换行符处结束推理跟踪。如果在500个token内未遇到换行符，推理跟踪将在reasoning_budget + 500处突然结束。

注意：此客户端可与任何兼容OpenAI API的端点配合使用。

支持预算控制的客户端：

from typing import Any, Dict, List

import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
   def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
       self.base_url = base_url
       self.api_key = api_key
       self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
       self.client = openai.OpenAI(base_url=self.base_url, api_key=self.api_key)


   def chat_completion(
       self,
       model: str,
       messages: List[Dict[str, Any]],
       reasoning_budget: int = 512,
       max_tokens: int = 1024,
       **kwargs,
   ) -> Dict[str, Any]:
       assert (
           max_tokens > reasoning_budget
       ), f"thinking budget must be smaller than maximum new tokens. Given {max_tokens=} and {reasoning_budget=}"


       # 1. first call chat completion to get reasoning content
       response = self.client.chat.completions.create(
           model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
       )
       content = response.choices[0].message.content


       reasoning_content = content
       if not "</think>" in reasoning_content:
           # reasoning content is too long, closed with a period (.)
           reasoning_content = f"{reasoning_content}.\n</think>\n\n"
       reasoning_tokens_len = len(
           self.tokenizer.encode(reasoning_content, add_special_tokens=False)
       )
       remaining_tokens = max_tokens - reasoning_tokens_len
       assert (
           remaining_tokens > 0
       ), f"remaining tokens must be positive. Given {remaining_tokens=}. Increase the max_tokens or lower the reasoning_budget."


       # 2. append reasoning content to messages and call completion
       messages.append({"role": "assistant", "content": reasoning_content})
       prompt = self.tokenizer.apply_chat_template(
           messages,
           tokenize=False,
           continue_final_message=True,
       )
       response = self.client.completions.create(
           model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
       )


       response_data = {
           "reasoning_content": reasoning_content.strip().strip("</think>").strip(),
           "content": response.choices[0].text,
           "finish_reason": response.choices[0].finish_reason,
       }
       return response_data

使用预算调用服务器（此处示例限制为 32 个 tokens）

tokenizer_name_or_path = "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16"
client = ThinkingBudgetClient(
   base_url="http://localhost:8000/v1",  # Nemotron 3 Nano deployed in thinking mode
   api_key="EMPTY",
   tokenizer_name_or_path=tokenizer_name_or_path,
)


result = client.chat_completion(
   model="nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
   messages=[
       {"role": "system", "content": "You are a helpful assistant. /think"},
       {"role": "user", "content": "What is 2+2?"},
   ],
   reasoning_budget=32,
   max_tokens=512,
   temperature=1.0,
   top_p=1.0,
)
print(result)

您应该会看到类似以下的输出：

{'reasoning_content': "Okay, the user asked, What is 2+2? Let me think. Well, 2 plus 2 equals 4. That's a basic.", 'content': '2 + 2 equals **4**.\n', 'finish_reason': 'stop'}

模型版本

v1.0

训练、测试与评估数据集

数据模态： 文本
总大小： 10,648,823,153,919 个 token
数据集总数： 141 个
数据集划分： 训练集[100%]、测试集[0%]、验证集[0%]
训练数据收集时间范围： 2013 年至 2025 年 5 月 1 日
测试数据收集时间范围： 2013 年至 2025 年 5 月 1 日
验证数据收集时间范围： 2013 年至 2025 年 5 月 1 日
数据集收集方法： 混合：自动化、人工、合成
数据集标注方法： 混合：自动化、人工、合成

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 在大规模高质量精选和合成生成数据集上进行预训练。其训练语言包括英语、19 种其他自然语言以及 43 种编程语言。我们的数据源涵盖多种文档类型，如网页、对话、文章及其他书面材料。语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格数据，以提升模型准确性。该模型的训练量约为 25 万亿 tokens。

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 的训练后语料库包含高质量的精选和合成生成数据。训练后阶段使用的主要语言包括英语、德语、西班牙语、法语、意大利语和日语。

这些数据集（如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3）并未全面或充分代表所有人口统计群体（及其比例）。例如，64%-99% 的样本中未明确提及年龄、性别或种族等人口统计类别，具体比例因来源而异。在提及此类术语的子集中，基于文档的数据集（FinePDFs 和 EssentialWeb）存在代表性偏差，例如“男性”的提及次数多于“女性”，“白人”是种族标识中最常见的（占种族提及的 43%-44%）。为缓解这些不平衡，我们建议采用偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略，以符合期望的模型行为。本评估在每个数据集上使用 3,000 样本子集，该规模被确定为最大化嵌入器准确性的最佳阈值。

在训练后阶段，我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据，这些数据通常基于真实任务或文档，并经过严格的质量筛选。对于数学、代码和科学领域，我们从精选的问题集出发，使用开源许可模型（如 GPT-OSS-120B）生成逐步推理轨迹、候选解决方案、best-of-n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域，我们通过从长文档中检索段落、生成多项选择问答（MCQ）/开放式问答（OpenQA）问题与答案，并将其改写为多种提示/响应格式以确保多样性，从而构建合成问答和推理数据。在所有处理流程中，我们均采用自动化验证（编译器、数值检查、语言识别）以确保数据高质量。

针对所有领域，我们应用统一的数据筛选流程，确保只有高质量、符合许可要求且可验证的样本用于训练后阶段。首先，我们通过结构检查（例如，当存在工具调用时检查是否缺少工具定义）丢弃格式错误的样本。然后，我们严格筛选表现出病态重复的推理轨迹，例如在滑动窗口内或整个轨迹中出现重复的 n-gram，我们发现这是推理格式错误或质量低下的强烈指标。最后，基于对合成生成数据集的内部审计，我们观察到某些教师模型偶尔会生成隐含特定政治实体立场或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题，我们应用基于关键词和正则表达式的定向过滤器，并移除所有符合此类行为的轨迹。

除模型外，我们还按本节所述发布最终的预训练和训练后数据。为便于分析，我们提供了一个无需访问权限的样本集。对于所有其余的代码、数学和多语言数据，需要访问权限和审批，且该数据集在模型训练用途方面采用宽松许可。

有关数据集和合成数据生成方法的更多详情，请参见技术报告 NVIDIA Nemotron 3 Nano。

数据集	收集时间
GSM8K	2025 年 4 月 23 日
CC-NEWS	2025 年 4 月 23 日
Common Crawl	2025 年 4 月 23 日
Wikimedia	2025 年 4 月 23 日
Bespoke-Stratos-17k	2025 年 4 月 23 日
tigerbot-kaggle-leetcodesolutions-en-2k	2025 年 4 月 23 日
glaive-function-calling-v2	2025 年 4 月 23 日
APIGen Function-Calling	2025 年 4 月 23 日
LMSYS-Chat-1M	2025 年 4 月 23 日
Open Textbook Library - CC BY-SA & GNU subset 和 OpenStax - CC BY-SA subset	2025 年 4 月 23 日
Advanced Reasoning Benchmark, tigerbot-kaggle-leetcodesolutions-en-2k, PRM800K, 和 SciBench	2025 年 4 月 23 日
FineWeb-2	2025 年 4 月 23 日
Court Listener	历史下载
peS2o	历史下载
OpenWebMath	历史下载
BioRxiv	历史下载
PMC Open Access Subset	历史下载
OpenWebText2	历史下载
Stack Exchange Data Dump	历史下载
PubMed Abstracts	历史下载
NIH ExPorter	历史下载
arXiv	历史下载
BigScience Workshop Datasets	历史下载
Reddit Dataset	历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR)	历史下载
Advanced Mathematical Problem Solving	历史下载
MathPile	历史下载
NuminaMath CoT	历史下载
PMC Article	历史下载
FLAN	历史下载
Advanced Reasoning Benchmark	历史下载
SciBench	历史下载
WikiTableQuestions	历史下载
FinQA	历史下载
Riddles	历史下载
Problems in Elementary Mathematics for Home Study	历史下载
MedMCQA	历史下载
Cosmos QA	历史下载
MCTest	历史下载
AI2's Reasoning Challenge	历史下载
OpenBookQA	历史下载
MMLU Auxiliary Train	历史下载
social-chemestry-101	历史下载
Moral Stories	历史下载
The Common Pile v0.1	历史下载
FineMath	历史下载
MegaMath	历史下载
MegaMath	历史下载
MultiverseMathHard	2025 年 10 月 2 日
SWE-Gym	2025 年 10 月 2 日
WorkBench	2025 年 10 月 2 日
WildChat-1M	2025 年 10 月 2 日
OpenCodeReasoning-2	2025 年 10 月 2 日
HelpSteer3	2025 年 10 月 2 日
opc-sft-stage2	2025 年 10 月 2 日
Big-Math-RL-Verified	2025 年 10 月 2 日
NuminaMath CoT	2025 年 10 月 2 日
MetaMathQA	2025 年 10 月 2 日
simple-arithmetic-problems	2025 年 10 月 2 日
arithmetic	2025 年 10 月 2 日
Skywork-OR1-RL-Data	2025 年 10 月 2 日
News Commentary	2025 年 10 月 2 日
FastChat	2025 年 10 月 2 日
Essential-Web	2025 年 10 月 2 日
finepdfs	2025 年 10 月 2 日
HotpotQA	2025 年 10 月 2 日
SQuAD2.0	2025 年 10 月 2 日
NLTK Words Lists	2025 年 10 月 2 日

第三方私有非公开可访问数据集

数据集
Global Regulation
TAUS Translation Memory
Scale HLE
HackerRank Coding

NVIDIA 私有非公开可访问数据集

数据集
Simple Minesweeper
Simple Sudoku
Multitool Typewriter Hard
Machine Translation of News Commentary and TAUS Translation Memory
Machine Translation of STEM data using Qwen2.5-14B-Instruct

NVIDIA 从在线来源爬取和抓取的数据

英语 Common Crawl 数据从 Common Crawl Foundation 下载（其抓取详情参见其常见问题解答），包括快照 CC-MAIN-2013-20 至 CC-MAIN-2025-13。随后，按照 Nemotron-CC 论文中描述的多种方式对数据进行去重和过滤。此外，我们从以下三个 Common Crawl 快照中提取了十五种语言的数据：CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可用的可靠多语言模型质量分类器，因此仅应用了启发式过滤——类似于我们在 Nemotron-CC 流程中对较低质量英语数据所做的处理，但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与 Nemotron-CC 采用的方式相同。

GitHub 爬取数据通过 GitHub REST API 和 Amazon S3 API 收集。每次爬取均按照其各自来源（GitHub 或 S3）设定的速率限制进行操作。我们收集原始源代码，随后移除所有许可证不在我们的宽松许可证集合中的代码（更多详情，请参见技术报告）。

数据集	模态	数据集大小	收集时间	收集机构
English Common Crawl	Text	3.36T	4/8/2025	NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1	Text	Not disclosed	10/2/2025	NVIDIA Advanced Deep Learning Research
Multilingual Common Crawl	Text	812.7B	5/1/2025	NVIDIA Advanced Deep Learning Research
GitHub Crawl	Text	747.4B	4/29/2025	NVIDIA Advanced Deep Learning Research

NVIDIA 来源的合成数据集

数据集	模态	数据集大小	种子数据集	用于生成的模型
基于 DeepSeek-R1 生成的合成解题技巧数据集	文本	40B	解题技巧；美国数学竞赛 8；美国数学竞赛 10；	DeepSeek-R1
基于 Mixtral-8x22B-v0.1 生成的合成道德故事与社会化学数据集	文本	327M	social-chemestry-101；道德故事	Mixtral-8x22B-v0.1
基于 OpenStax 种子，由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成社会科学数据集	文本	83.6M	OpenStax - CC BY-SA 子集	DeepSeek-V3；Mixtral-8x22B-v0.1；Qwen2.5-72B
基于 OpenStax 种子，由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成健康科学数据集	文本	9.7M	OpenStax - CC BY-SA 子集	DeepSeek-V3；Mixtral-8x22B-v0.1；Qwen2.5-72B
基于 OpenStax、开放教科书图书馆和 GSM8K 种子，由 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 生成的合成 STEM 数据集	文本	175M	OpenStax - CC BY-SA 子集；GSM8K；开放教科书图书馆 - CC BY-SA 与 GNU 子集	DeepSeek-R1，DeepSeek-V3；DeepSeek-V3-0324；Qwen2.5-72B
Nemotron-PrismMath	文本	4.6B	Big-Math-RL-Verified；OpenR1-Math-220k	Qwen2.5-0.5B-instruct，Qwen2.5-72B-Instruct；DeepSeek-R1-Distill-Qwen-32B
基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成问答数据	文本	350M	arXiv；美国国立卫生研究院 ExPorter；BioRxiv；PMC 文章；USPTO 背景资料；peS2o；全球法规；CORE；PG-19；DOAB CC BY 与 CC BY-SA 子集；NDLTD	Qwen2.5-72B-Instruct
基于 phi-4 刷新的 Nemotron-MIND	文本	73B	Common Crawl	phi-4
Nemotron-CC-Math-4plus	文本	52.3B	Common Crawl	phi-4
Nemotron-CC-Math-3	文本	80.9B	Common Crawl	phi-4
基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子，由 DeepSeek-V3 和 DeepSeek-V3-0324 生成的合成 AGIEval 数据集	文本	4.0B	AQUA-RAT；LogiQA；AR-LSAT	DeepSeek-V3；DeepSeek-V3-0324
基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子，由 Qwen3-30B-A3B 生成的合成 AGIEval 数据集	文本	4.2B	AQUA-RAT；LogiQA；AR-LSAT	Qwen3-30B-A3B
基于 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 生成的合成解题技巧数据集	文本		解题技巧；美国数学竞赛 8；美国数学竞赛 10；GSM8K；PRM800K	Qwen2.5-32B-Instruct；Qwen2.5-Math-72B；Qwen2.5-Math-7B；Qwen2.5-72B-Instruct
基于 DeepSeek-R1 生成的合成 MMLU 辅助训练数据集	文本	0.5B	MMLU 辅助训练	DeepSeek-R1
基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成长上下文持续训练后数据	文本		arXiv；美国国立卫生研究院 ExPorter；BioRxiv；PMC 文章；USPTO 背景资料；peS2o；全球法规；CORE；PG-19；DOAB CC BY 与 CC BY-SA 子集；NDLTD	Qwen2.5-72B-Instruct
基于 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 生成的合成 Common Crawl 数据集	文本	415.8B	Common Crawl	Qwen3-30B-A3B；Mistral-NeMo-12B-Instruct
基于 Qwen3-30B-A3B 从 Common Crawl 生成的合成多语言数据	文本		Common Crawl	Qwen3-30B-A3B
基于 Qwen3-30B-A3B 从 Wikimedia 生成的合成多语言数据	文本		Wikimedia	Qwen3-30B-A3B
基于 Nemotron-4-340B-Instruct 从 Wikimedia 生成的合成数学数据	文本		-	Nemotron-4-340B-Instruct
基于 phi-4 生成的合成 Common Crawl 代码数据集	文本	427.9B	Common Crawl	phi-4
基于 Qwen3-235B-A22B 生成的合成科学编码数据集	文本	1.2B	Wikimedia	Qwen3-235B-A22B
工具调用数据	文本	26.2B		Qwen3-235B-A22B-2507；gpt-oss-120b
基于 QwQ-32B 生成的合成 Essential-Web 数据集	文本	28.1B	Essential-Web	QwQ-32B
翻译的合成抓取数据	文本	389.9B	Common Crawl	Qwen3-30B-A3B
翻译的合成维基百科数据	文本	7.9B	Wikimedia	Qwen3-30B-A3B
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成解题技巧数据集	文本	未公开	解题技巧；美国数学竞赛 8；美国数学竞赛 10	gpt-oss-120b；Qwen2.5-32B-Instruct
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 Stack Exchange 数据集	文本	未公开	Stack Exchange	gpt-oss-120b；Qwen2.5-32B-Instruct
基于 DeepSeek-R1-0528 生成的合成 OpenCodeReasoning 数据集	文本	未公开	OpenCodeReasoning	DeepSeek-R1-0528
基于 DeepSeek-R1-0528 生成的合成 HackerRank 编码数据集	文本	未公开	HackerRank 编码数据集	DeepSeek-R1-0528
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集	文本	未公开	SWE-Gym	Qwen3-Coder-480B-A35B-Instruct
基于 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 生成的合成解题技巧与 Stack Exchange 数据集	文本	未公开	解题技巧；美国数学竞赛 8；美国数学竞赛 10；Stack Exchange	gpt-oss-120b；Qwen2.5-32B-Instruct；Goedel-Prover-V2-32B
基于 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 生成，并由 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译的合成多语言科学与代码数据	文本	未公开	Stack Exchange；SCP-116K；LIMO；TACO；代码竞赛；Codeforces	DeepSeek-R1；DeepSeek-R1-0528；Qwen2.5-32B-Instruct；Qwen3-235B-A22B；
基于 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 生成的合成安全数据集	文本	未公开	Nemotron 内容安全数据集 V2；Gretel 合成安全对齐数据集；RedTeam-2K；恶意任务；Nemotron-Personas-USA	DeepSeek-R1-0528；gpt-oss-120b；Mixtral-8x7B-v0.1
基于 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 生成的合成 STEM 数据集	文本	未公开	arXiv；美国国立卫生研究院 ExPorter；BioRxiv；PMC 文章；USPTO 背景资料；peS2o；全球法规；CORE；PG-19；DOAB CC BY 与 CC BY-SA 子集；NDLTD	Qwen3-235B-A22B-Instruct-2507；gpt-oss-120b
基于 DeepSeek-R1-0528 生成的合成 KernelBook 数据集	文本	未公开	KernelBook	DeepSeek-R1-0528
基于 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 生成的合成工具调用数据集	文本	未公开	ToolBench；glaive-function-calling-v2；APIGen 函数调用；Nemotron-Personas-USA	Qwen3-235B-A22B-Thinking-2507；Qwen3-Next-80B-A3B-Thinking
基于 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 生成的合成聊天数据集	文本	未公开	C4；LMSYS-Chat-1M；ShareGPT；GSM8K；PRM800K；FinQA；WikiTableQuestions；谜语；glaive-function-calling-v2；SciBench；tigerbot-kaggle-leetcodesolutions-en-2k；OpenBookQA；高级推理基准；Software Heritage；可汗学院数学关键词；WildChat-1M；Nemotron-Personas-USA	gpt-oss-120b；Mixtral-8x22B-Instruct-v0.1；Qwen3-235B-A22B-Instruct-2507；Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-235B-A22B-Instruct-2507 生成的合成长上下文数据集	文本	未公开	CORE；PG-19；DOAB CC BY 与 CC BY-SA 子集；NDLTD	Qwen3-235B-A22B-Instruct-2507
基于 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 生成的合成工具使用交互式智能体数据集	文本	未公开	NVIDIA 内部	gpt-oss-120b；DeepSeek-R1-0528；Qwen3-32B；以及 Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-235B-A22B-Thinking-2507 生成的合成 STEM 数据集	文本	未公开	ICHO-IPH0；Physics Big；Scale HLE；OpenMathReasoning；OpenCodeReasoning	Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 生成的合成 DocFinQA 和 SWE-smith 数据集	文本	未公开	DocFinQA；SWE-smith	Qwen3-Coder-480B-A35B-Instruct；Kimi-K2-Thinking
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成数学数据集	文本	未公开	-	gpt-oss-120b；Qwen2.5-32B-Instruct
基于 gpt-oss-120b 生成的合成 Essential-Web 数据集	文本	未公开	Essential-Web	gpt-oss-120b
基于 gpt-oss-120b 生成的合成 Scale HLE 数据集	文本	未公开	Scale HLE	gpt-oss-120b
基于 gpt-oss-120b 生成的合成 CDQuestions 数据集	文本	未公开	CDQuestions	gpt-oss-120b
基于 gpt-oss-120b 生成的合成 Stack Exchange 数据集	文本	未公开	Stack Exchange	gpt-oss-120b
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 GPQA 数据集	文本	未公开	Stack Exchange	gpt-oss-120b；Qwen2.5-32B-Instruct
基于 gpt-oss-120b 生成的合成 Vedantu 数据集	文本	未公开	Vedantu	gpt-oss-120b
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集	文本	未公开	SWE-Gym；R2E-Gym-Subset	Qwen3-Coder-480B-A35B-Instruct
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集	文本	未公开	SWE-Gym	Qwen3-Coder-480B-A35B-Instruct
基于 DeepSeek-R1-0528 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集	文本	未公开	SWE-Gym；R2E-Gym-Subset	DeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA	文本	未公开	HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USA	gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出	文本	未公开	-	Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM 多项选择题	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM 开放式问题	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM	文本	未公开	-	Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成多项选择题	文本	未公开	-	Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning	文本	未公开	OpenMathReasoning	gpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE	文本	未公开	-	DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA	文本	未公开	-	Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好	文本	未公开	-	QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k	文本	未公开	WildChat-1M; arena-human-preference-140k	DeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全性数据	文本	未公开	Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks;	DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码	文本	未公开	English Common Crawl; English Common Crawl 1.1	Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning	文本	未公开	OpenCodeReasoning	DeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO	文本	未公开	LIMO	DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP	文本	未公开	SCP-116K	DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange	文本	未公开	Stack Exchange	DeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl	文本	未公开	Common Crawl	Qwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia	文本	未公开	Wikimedia	Qwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web	文本	未公开	Essential-Web	Qwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学	文本	未公开	Common Crawl; FineMath	Qwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码	文本	未公开	Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoT	DeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA	文本	未公开	Nemotron-Personas-USA	gpt-oss-120b; Qwen3-8B

训练数据集

数据集	Nemotron Nano 2 的标记数	Nemotron 3 Nano 的标记数
English Common Crawl	3,360,110,334,818	3,456,523,212,210
English Synthetic CC	1,949,464,641,123	4,340,740,677,920
Crawl++	360,389,153,262	360,389,153,262
Math	124,606,230,663	154,217,502,165
Synthetic Math	73,007,767,155	73,007,767,155
Code	747,409,228,724	1,043,856,922,136
Synthetic Code	175,067,553,293	453,117,917,176
Common Crawl Code	0	263,072,374,097
English Wiki	17,349,266,926	17,349,266,926
Synthetic Wiki	0	7,850,648,552
Books	0	0
Papers	191,586,493,365	191,586,493,365
PDF-to-text	141,096,578,533	141,096,578,533
Code SFT	60,025,726,817	102,863,752,325
STEM SFT	272,680,426,295	359,826,214,274
General SFT	6,057,478,645	6,057,478,645
Tool-Calling SFT	0	26,244,716,867
Multilingual	2,172,261,909,350	1,743,892,490,859
Synthetic multilingual	997,710,364,950	595,140,661,135
Total	10,648,823,153,919	13,336,833,827,602

我们使用了大量的合成数据。在10.6万亿标记中，有3,534,013,958,278个标记是通过合成生成的。

我们从以下三个Common Crawl快照中提取了15种语言的数据：CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这15种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器，因此我们仅应用了启发式过滤——类似于我们在Nemotron-CC流程中对质量较低的英语数据所做的处理，但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。此外，我们还将Wikipedia和FineWeb-2（Penedo et al., 2025）的数据用于这15种语言以及另外4种语言：捷克语、芬兰语、希伯来语和印地语。

语言	总标记数
Arabic	118,056,362,726
Danish	117,747,321,618
German	146,613,691,781
Spanish	469,156,575,409
French	139,982,002,289
Italian	298,858,370,174
Japanese	682,755,693,336
Korean	127,099,747,538
Dutch	89,041,592,681
Polish	105,356,493,147
Portuguese	243,249,275,089
Russian	185,314,014,057
Swedish	74,954,953,299
Thai	160,778,944,467
Chinese	211,007,236,689

我们共收集了43种不同语言的922,476,782,017个代码标记。

语言	标记数
Assembly	750,628,764
C	42,657,300,868
C#	56,153,329,307
C++	67,773,701,658
CommonLisp	263,234,672
CSS	38,848,760,035
Cuda	400,222,993
Dart	3,816,960,470
Dockerfile	474,958,084
Fortran	1,105,049,387
Go	8,332,419,480
Haskell	1,294,613,669
HTML	69,082,117,487
Java	131,440,465,822
JavaScript	75,573,420,861
JSON	15,366,881,241
Julia	621,046,949
JupyterNotebook	2,241,893,197
Lua	4,146,420,802
Makefile	12,640,010,879
Markdown	64,796,743,311
Mathematica	320,504,225
OmniversePython	26,946,093
Pascal	1,625,013,876
Perl	1,575,314,434
PHP	61,575,339,005
Python	126,916,727,384
R	19,811,381,935
reStructuredText	1,779,876,391
Ruby	6,446,962,615
Rust	4,438,640,533
Scala	3,343,959,154
Shell	18,758,779,250
SQL	23,205,633,085
Swift	5,976,714,881
SystemVerilog	233,056,185
TeX	7,347,157,527
TypeScript	15,657,838,582
Verilog	811,884,369
VHDL	648,401,444
VisualBasic.NET	1,005,680,881
XML	12,616,779,741
YAML	10,574,010,491

训练后语言分布

在我们的训练后方案中，除英语外，我们重点关注了5种主要语言：西班牙语、法语、日语、意大利语和德语。
这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言	规模
English	16.2 M
Italian	0.252M
German	0.252M
Spanish	0.252M
French	0.252M
Japanese	0.252M
English <-> Italian	108k
English <-> German	108k
English <-> Spanish	108k
English <-> French	108k
English <-> Japanese	108k

评估数据集

数据集的数据收集方法：混合式：人工、合成
数据集的标注方法：混合式：自动化、人工、合成

推理

引擎：HF、vLLM、TRT-LLM、SGLang、Llama.cpp
测试硬件：NVIDIA A100 80GB、H100 80GB、B200 192GB、RTX PRO 6000 96GB、Jetson Thor、DGX Spark

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持各类 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时，开发人员应与其内部模型团队合作，确保此模型满足相关行业和用例的要求，并应对意外的产品误用。

我们建议不要规避模型中包含的任何安全防护措施，除非针对您的用例有实质上类似的防护措施。更多详情：安全性和可解释性子卡片。

有关此模型伦理考量的更多详细信息，请参阅 Model Card++ 的偏见和隐私子卡片。

请在此处报告安全漏洞或 NVIDIA AI 相关问题。

引用格式


@misc{nvidia_nemotron_nano_v3_2025,
  title  = {{Nemotron 3 Nano}: Open, Efficient Mixture-of-Experts Hybrid {Mamba}-{Transformer} Model for {Agentic} Reasoning},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20848},
  note   = {Technical report}
}

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

语言类型

Python87.65%

Jinja9.46%

Jupyter Notebook2.89%

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16:混合MoE架构大语言模型，支持多语言推理与代码生成，商用就绪