NVIDIA研发的统一推理与非推理任务大语言模型,采用混合MoE架构,支持英、德、西等多语言,可生成推理轨迹提升准确率,适用于AI代理、聊天机器人等应用,已就绪商用。【此简介由AI生成】
library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ pipeline_tag: text-generation language:
- en
- es
- fr
- de
- ja
- it tags:
- nvidia
- pytorch datasets:
- nvidia/Nemotron-Pretraining-Code-v1
- nvidia/Nemotron-CC-v2
- nvidia/Nemotron-Pretraining-SFT-v1
- nvidia/Nemotron-CC-Math-v1
- nvidia/Nemotron-Pretraining-Code-v2
- nvidia/Nemotron-Pretraining-Specialized-v1
- nvidia/Nemotron-CC-v2.1
- nvidia/Nemotron-CC-Code-v1
- nvidia/Nemotron-Pretraining-Dataset-sample
- nvidia/Nemotron-Competitive-Programming-v1
- nvidia/Nemotron-Math-v2
- nvidia/Nemotron-Agentic-v1
- nvidia/Nemotron-Math-Proofs-v1
- nvidia/Nemotron-Instruction-Following-Chat-v1
- nvidia/Nemotron-Science-v1
- nvidia/Nemotron-3-Nano-RL-Training-Blend track_downloads: true
NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

模型概述
模型开发者: NVIDIA Corporation
模型日期:
2025年9月 - 2025年12月
数据时效性:
- 训练后数据的截止日期为2025年11月28日。
- 预训练数据的截止日期为2025年6月25日。
描述
Nemotron-3-Nano-30B-A3B-BF16是由NVIDIA从头开始训练的大型语言模型(LLM),设计为适用于推理和非推理任务的统一模型。它通过首先生成推理轨迹,然后得出最终响应来响应用户的查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。如果用户希望模型直接提供最终答案而不展示中间推理过程,可以进行相应设置,尽管对于需要推理的较难提示,其准确性会略有下降。相反,允许模型先生成推理轨迹通常会为查询和任务带来更高质量的最终解决方案。
该模型采用混合专家混合(Mixture-of-Experts, MoE)架构,由23个Mamba-2和MoE层以及6个注意力层组成。每个MoE层包含128个专家和1个共享专家,每个token激活6个专家。该模型的活跃参数为35亿,总参数为300亿。
支持的语言包括:英语、德语、西班牙语、法语、意大利语和日语。使用Qwen进行了改进。
此模型已准备好用于商业用途。
什么是Nemotron?
NVIDIA Nemotron™是一系列开放模型,包含开放权重、训练数据和训练方法,为构建专业AI智能体提供卓越的效率和准确性。
要开始使用,您可以参考下方的快速入门指南。
功能投票
我们希望听取您的意见!分享您的想法,为重要的功能投票,帮助塑造Nemotron的未来。
许可/使用条款
管辖条款:使用本模型受NVIDIA Nemotron开放模型许可协议约束。
推理基准评估
我们在以下基准上对模型进行了评估:
| 任务 | NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 | Qwen3-30B-A3B-Thinking-2507 | GPT-OSS-20B |
|---|---|---|---|
| 通用知识 | |||
| MMLU-Pro | 78.3 | 80.9 | 75.0 |
| 推理能力 | |||
| AIME25(无工具) | 89.1 | 85.0 | 91.7 |
| AIME25(有工具) | 99.2 | - | 98.7 |
| GPQA(无工具) | 73.0 | 73.4 | 71.5 |
| GPQA(有工具) | 75.0 | - | 74.2 |
| LiveCodeBench(v6 2025-08–2025-05) | 68.3 | 66.0 | 61.0 |
| SciCode(子任务) | 33.3 | 33.0 | 34.0 |
| HLE(无工具) | 10.6 | 9.8 | 10.9 |
| HLE(有工具) | 15.5 | - | 17.3 |
| MiniF2F pass@1 | 50.0 | 5.7 | 12.1 |
| MiniF2F pass@32 | 79.9 | 16.8 | 43.0 |
| 智能体能力 | |||
| Terminal Bench(困难子集) | 8.5 | 5.0 | 6.0 |
| SWE-Bench(OpenHands) | 38.8 | 22.0 | 34.0 |
| TauBench V2(航空领域) | 48.0 | 58.0 | 38.0 |
| TauBench V2(零售领域) | 56.9 | 58.8 | 38.0 |
| TauBench V2(电信领域) | 42.2 | 26.3 | 49.7 |
| TauBench V2(平均值) | 49.0 | 47.7 | 48.7 |
| BFCL v4 | 53.8 | 46.4* | - |
| 对话与指令遵循 | |||
| IFBench(提示词) | 71.5 | 51.0 | 65.0 |
| Scale AI Multi Challenge | 38.5 | 44.8 | 33.8 |
| Arena-Hard-V2(困难提示词) | 72.1 | 49.6* | 71.2* |
| Arena-Hard-V2(创意写作) | 63.2 | 66.0* | 25.9& |
| Arena-Hard-V2(平均值) | 67.7 | 57.8 | 48.6 |
| 长上下文 | |||
| AA-LCR | 35.9 | 59.0 | 34.0 |
| RULER-100@256k | 92.9 | 89.4 | - |
| RULER-100@512k | 91.3 | 84.0 | - |
| RULER-100@1M | 86.3 | 77.5 | - |
| 多语言能力 | |||
| MMLU-ProX(语言平均值) | 59.5 | 77.6* | 69.1* |
| WMT24++(en->xx) | 86.2 | 85.6 | 83.2 |
所有评估结果均通过Nemo Evaluator SDK和Nemo Skills收集。用于评估的、通过NVIDIA Nemo Evaluator SDK打包的Nemo Skills开源容器可在此处找到。除Nemo Skills外,评估还使用了Tau-2 Bench、ArenaHard v2、AA_LCR的专用打包容器。包含所有配置的可复现教程可在Nemo Evaluator SDK示例中找到。配置文件也可在此HF仓库的此处获取。*表示准确度数值由我们测量。
部署地区:全球
应用场景
NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 是一款通用推理与对话模型,适用于英语和编程语言。同时也支持其他非英语语言(英语、西班牙语、法语、德语、日语、意大利语)。该模型面向设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用的开发者。此外,该模型也适用于典型的指令遵循任务。
发布日期
2025 年 12 月 15 日,通过 Hugging Face 发布
参考资料
- Hugging Face 上的 NVIDIA Nemotron 3 模型系列
- Hugging Face 上的 NVIDIA Nemotron 2 模型系列
- Nemotron 3 Nano:用于智能体推理的开源、高效混合专家混合 Mamba-Transformer 模型
- NVIDIA Nemotron 3 白皮书
模型架构
- 架构类型:Mamba2-Transformer 混合专家模型(MoE)
- 网络架构:Nemotron 混合 MoE
- 模型参数数量:300 亿
模型设计
该模型使用 25 万亿 tokens 进行训练,批大小为 3072,并采用 Warmup-Stable-Decay(WSD)学习率调度策略,其中学习率预热阶段为 80 亿 tokens,峰值学习率为 1e-3,最小学习率为 1e-5。模型共包含 52 层,其中 MoE 层和 Mamba-2 层各 23 层,剩余 6 层采用分组查询注意力(GQA),包含 2 个分组。每个 MoE 层包含 128 个路由专家和 1 个共享专家,每个 token 激活 6 个专家。
训练方法
阶段 1:预训练
- NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 模型通过爬取的和合成的代码、数学、科学及通用知识数据进行预训练。所有数据集均在本文档的 训练、测试和评估数据集 部分披露。预训练语料的主要部分在 Nemotron-Pre-Training-Datasets 集合中发布。
- 用于预训练的软件:Megatron-LM
阶段 2:有监督微调
- 模型在合成代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进一步微调。所有数据集均在本文档的 训练、测试和评估数据集 部分披露。微调语料的主要部分在 Nemotron-Post-Training-v3 集合中发布。Data Designer 是用于准备这些语料库的库之一。
阶段 3:强化学习
- 模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中,使用同步 GRPO(Group Relative Policy Optimization)进行多环境强化学习。通过使用 生成式奖励模型 的 RLHF 进一步优化了对话质量。所有数据集均在本文档的 训练、测试和评估数据集 部分披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
- 用于强化学习的软件:NeMo RL、NeMo Gym
NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 模型是上述工作的成果。
端到端训练方案可在 NVIDIA Nemotron 开发者仓库 中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和后训练数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron 3 Nano。
输入
-
输入类型: 文本
-
输入格式: 字符串
-
输入参数: 一维(1D):序列
-
最大输入大小: 100万 token
-
与输入相关的其他属性: 支持的语言包括:英语、西班牙语、法语、德语、日语、意大利语
输出
-
输出类型: 文本
-
输出格式: 字符串
-
输出参数: 一维(1D):序列
-
最大输出大小: 100万 token
我们的 AI 模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
软件集成
- 运行时引擎:NeMo 25.11.01
- 支持的硬件微架构兼容性:NVIDIA H100-80GB、NVIDIA A100
- 操作系统:Linux
将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全和道德标准。
快速入门指南
使用 Transformers
以下代码片段展示了如何结合 Huggingface Transformers(在 4.57.3 版本上测试)使用此模型。我们建议使用 NeMo Framework 25.11.01,以确保所有必需的库均可用。
请注意,该模型支持高达 100 万 token 的上下文长度,但由于较高的显存需求,Hugging Face 配置中的默认上下文长度为 256k token。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16")
model = AutoModelForCausalLM.from_pretrained(
"nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
messages = [
{"role": "user", "content": "Write a haiku about GPUs"},
]
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
tokenized_chat,
max_new_tokens=1024,
temperature=1.0,
top_p=1.0,
eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))
temperature=1.0 和 top_p=1.0 推荐用于推理任务,而 temperature=0.6 和 top_p=0.95 推荐用于工具调用。
如果您想关闭推理功能,请在 apply_chat_template() 中添加 enable_thinking=False。默认情况下,enable_thinking 设为 True。
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
enable_thinking=False,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# Use Greedy Search for reasoning off
outputs = model.generate(
tokenized_chat,
max_new_tokens=32,
do_sample=False,
num_beams=1,
eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))
与 vLLM 配合使用
有关如何将模型与 vLLM 配合使用的更多详细信息,请参见此使用指南。 如果您使用的是 Jetson Thor 或 DGX Spark,请使用此 vllm 容器。
pip install -U "vllm>=0.12.0"
从 Hugging Face 仓库下载自定义解析器。
wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16/resolve/main/nano_v3_reasoning_parser.py
使用自定义解析器启动 vLLM 服务器。
vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
--served-model-name model \
--max-num-seqs 8 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--port 8000 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin nano_v3_reasoning_parser.py \
--reasoning-parser nano_v3
在上述示例中,我们使用了256k的上下文长度。您可以将上下文大小增加至1M,以支持更长的上下文。
若要启用此功能,请按以下方式设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=1环境变量:
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
--served-model-name model \
--max-num-seqs 8 \
--tensor-parallel-size 1 \
--max-model-len 1M \
--port 8000 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin nano_v3_reasoning_parser.py \
--reasoning-parser nano_v3
以下是 vLLM 的客户端代码示例。默认情况下,端点已启用推理功能。我们建议将 max_tokens 设置为较高的值(例如 10,000)。
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "model",
"messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
"max_tokens": 10000
}'
如果您希望在 vLLM 中关闭推理功能,可以按以下步骤操作:
vLLM OpenAI curl 请求:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "model",
"messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
"chat_template_kwargs": {"enable_thinking": false}
}'
vLLM OpenAI 客户端:
response = client.chat.completions.create(model=model, messages=messages, extra_body={"chat_template_kwargs": {"enable_thinking": False}})
与 TRT-LLM 配合使用
有关如何将模型与 TRT-LLM 配合使用的更多详细信息,请参见此手册。
# nano_v3 example yaml is https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/auto_deploy/nano_v3.yaml
trtllm-serve <model_path> \
--backend _autodeploy \
--trust_remote_code \
--reasoning_parser nano-v3 \
--tool_parser qwen3_coder \
--extra_llm_api_options nano_v3.yaml
与 SGLang 配合使用
有关如何将模型与 SGLang 配合使用的更多详细信息,请参见此手册。
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
--trust-remote-code \
--tp 1 \
--attention-backend flashinfer \
--tool-call-parser qwen3_coder \
--reasoning-parser nano_v3
使用预算控制
思考预算使开发人员能够在保持高精度的同时满足响应时间目标——这在客户支持、自主代理步骤以及边缘设备等每毫秒都至关重要的场景中尤为关键。
借助预算控制,您可以为内部推理设置限制:
reasoning_budget:这是一个阈值,将尝试在推理跟踪中遇到的下一个换行符处结束推理跟踪。如果在500个token内未遇到换行符,推理跟踪将在reasoning_budget + 500处突然结束。
注意:此客户端可与任何兼容OpenAI API的端点配合使用。
支持预算控制的客户端:
from typing import Any, Dict, List
import openai
from transformers import AutoTokenizer
class ThinkingBudgetClient:
def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
self.base_url = base_url
self.api_key = api_key
self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
self.client = openai.OpenAI(base_url=self.base_url, api_key=self.api_key)
def chat_completion(
self,
model: str,
messages: List[Dict[str, Any]],
reasoning_budget: int = 512,
max_tokens: int = 1024,
**kwargs,
) -> Dict[str, Any]:
assert (
max_tokens > reasoning_budget
), f"thinking budget must be smaller than maximum new tokens. Given {max_tokens=} and {reasoning_budget=}"
# 1. first call chat completion to get reasoning content
response = self.client.chat.completions.create(
model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
)
content = response.choices[0].message.content
reasoning_content = content
if not "</think>" in reasoning_content:
# reasoning content is too long, closed with a period (.)
reasoning_content = f"{reasoning_content}.\n</think>\n\n"
reasoning_tokens_len = len(
self.tokenizer.encode(reasoning_content, add_special_tokens=False)
)
remaining_tokens = max_tokens - reasoning_tokens_len
assert (
remaining_tokens > 0
), f"remaining tokens must be positive. Given {remaining_tokens=}. Increase the max_tokens or lower the reasoning_budget."
# 2. append reasoning content to messages and call completion
messages.append({"role": "assistant", "content": reasoning_content})
prompt = self.tokenizer.apply_chat_template(
messages,
tokenize=False,
continue_final_message=True,
)
response = self.client.completions.create(
model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
)
response_data = {
"reasoning_content": reasoning_content.strip().strip("</think>").strip(),
"content": response.choices[0].text,
"finish_reason": response.choices[0].finish_reason,
}
return response_data
使用预算调用服务器(此处示例限制为 32 个 tokens)
tokenizer_name_or_path = "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16"
client = ThinkingBudgetClient(
base_url="http://localhost:8000/v1", # Nemotron 3 Nano deployed in thinking mode
api_key="EMPTY",
tokenizer_name_or_path=tokenizer_name_or_path,
)
result = client.chat_completion(
model="nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
messages=[
{"role": "system", "content": "You are a helpful assistant. /think"},
{"role": "user", "content": "What is 2+2?"},
],
reasoning_budget=32,
max_tokens=512,
temperature=1.0,
top_p=1.0,
)
print(result)
您应该会看到类似以下的输出:
{'reasoning_content': "Okay, the user asked, What is 2+2? Let me think. Well, 2 plus 2 equals 4. That's a basic.", 'content': '2 + 2 equals **4**.\n', 'finish_reason': 'stop'}
模型版本
- v1.0
训练、测试与评估数据集
数据模态: 文本
总大小: 10,648,823,153,919 个 token
数据集总数: 141 个
数据集划分: 训练集[100%]、测试集[0%]、验证集[0%]
训练数据收集时间范围: 2013 年至 2025 年 5 月 1 日
测试数据收集时间范围: 2013 年至 2025 年 5 月 1 日
验证数据收集时间范围: 2013 年至 2025 年 5 月 1 日
数据集收集方法: 混合:自动化、人工、合成
数据集标注方法: 混合:自动化、人工、合成
NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 在大规模高质量精选和合成生成数据集上进行预训练。其训练语言包括英语、19 种其他自然语言以及 43 种编程语言。我们的数据源涵盖多种文档类型,如网页、对话、文章及其他书面材料。语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格数据,以提升模型准确性。该模型的训练量约为 25 万亿 tokens。
NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 的训练后语料库包含高质量的精选和合成生成数据。训练后阶段使用的主要语言包括英语、德语、西班牙语、法语、意大利语和日语。
这些数据集(如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3)并未全面或充分代表所有人口统计群体(及其比例)。例如,64%-99% 的样本中未明确提及年龄、性别或种族等人口统计类别,具体比例因来源而异。在提及此类术语的子集中,基于文档的数据集(FinePDFs 和 EssentialWeb)存在代表性偏差,例如“男性”的提及次数多于“女性”,“白人”是种族标识中最常见的(占种族提及的 43%-44%)。为缓解这些不平衡,我们建议采用偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略,以符合期望的模型行为。本评估在每个数据集上使用 3,000 样本子集,该规模被确定为最大化嵌入器准确性的最佳阈值。
在训练后阶段,我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据,这些数据通常基于真实任务或文档,并经过严格的质量筛选。对于数学、代码和科学领域,我们从精选的问题集出发,使用开源许可模型(如 GPT-OSS-120B)生成逐步推理轨迹、候选解决方案、best-of-n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域,我们通过从长文档中检索段落、生成多项选择问答(MCQ)/开放式问答(OpenQA)问题与答案,并将其改写为多种提示/响应格式以确保多样性,从而构建合成问答和推理数据。在所有处理流程中,我们均采用自动化验证(编译器、数值检查、语言识别)以确保数据高质量。
针对所有领域,我们应用统一的数据筛选流程,确保只有高质量、符合许可要求且可验证的样本用于训练后阶段。首先,我们通过结构检查(例如,当存在工具调用时检查是否缺少工具定义)丢弃格式错误的样本。然后,我们严格筛选表现出病态重复的推理轨迹,例如在滑动窗口内或整个轨迹中出现重复的 n-gram,我们发现这是推理格式错误或质量低下的强烈指标。最后,基于对合成生成数据集的内部审计,我们观察到某些教师模型偶尔会生成隐含特定政治实体立场或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题,我们应用基于关键词和正则表达式的定向过滤器,并移除所有符合此类行为的轨迹。
除模型外,我们还按本节所述发布最终的预训练和训练后数据。为便于分析,我们提供了一个无需访问权限的样本集。对于所有其余的代码、数学和多语言数据,需要访问权限和审批,且该数据集在模型训练用途方面采用宽松许可。
有关数据集和合成数据生成方法的更多详情,请参见技术报告 NVIDIA Nemotron 3 Nano。
第三方私有非公开可访问数据集
| 数据集 |
|---|
| Global Regulation |
| TAUS Translation Memory |
| Scale HLE |
| HackerRank Coding |
NVIDIA 私有非公开可访问数据集
| 数据集 |
|---|
| Simple Minesweeper |
| Simple Sudoku |
| Multitool Typewriter Hard |
| Machine Translation of News Commentary and TAUS Translation Memory |
| Machine Translation of STEM data using Qwen2.5-14B-Instruct |
NVIDIA 从在线来源爬取和抓取的数据
英语 Common Crawl 数据从 Common Crawl Foundation 下载(其抓取详情参见其常见问题解答),包括快照 CC-MAIN-2013-20 至 CC-MAIN-2025-13。随后,按照 Nemotron-CC 论文中描述的多种方式对数据进行去重和过滤。此外,我们从以下三个 Common Crawl 快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可用的可靠多语言模型质量分类器,因此仅应用了启发式过滤——类似于我们在 Nemotron-CC 流程中对较低质量英语数据所做的处理,但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与 Nemotron-CC 采用的方式相同。
GitHub 爬取数据通过 GitHub REST API 和 Amazon S3 API 收集。每次爬取均按照其各自来源(GitHub 或 S3)设定的速率限制进行操作。我们收集原始源代码,随后移除所有许可证不在我们的宽松许可证集合中的代码(更多详情,请参见技术报告)。
| 数据集 | 模态 | 数据集大小 | 收集时间 | 收集机构 |
|---|---|---|---|---|
| English Common Crawl | Text | 3.36T | 4/8/2025 | NVIDIA Advanced Deep Learning Research |
| English Common Crawl 1.1 | Text | Not disclosed | 10/2/2025 | NVIDIA Advanced Deep Learning Research |
| Multilingual Common Crawl | Text | 812.7B | 5/1/2025 | NVIDIA Advanced Deep Learning Research |
| GitHub Crawl | Text | 747.4B | 4/29/2025 | NVIDIA Advanced Deep Learning Research |
NVIDIA 来源的合成数据集
| 数据集 | 模态 | 数据集大小 | 种子数据集 | 用于生成的模型 |
|---|---|---|---|---|
| 基于 DeepSeek-R1 生成的合成解题技巧数据集 | 文本 | 40B | 解题技巧;美国数学竞赛 8;美国数学竞赛 10; | DeepSeek-R1 |
| 基于 Mixtral-8x22B-v0.1 生成的合成道德故事与社会化学数据集 | 文本 | 327M | social-chemestry-101;道德故事 | Mixtral-8x22B-v0.1 |
| 基于 OpenStax 种子,由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成社会科学数据集 | 文本 | 83.6M | OpenStax - CC BY-SA 子集 | DeepSeek-V3;Mixtral-8x22B-v0.1;Qwen2.5-72B |
| 基于 OpenStax 种子,由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成健康科学数据集 | 文本 | 9.7M | OpenStax - CC BY-SA 子集 | DeepSeek-V3;Mixtral-8x22B-v0.1;Qwen2.5-72B |
| 基于 OpenStax、开放教科书图书馆和 GSM8K 种子,由 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 生成的合成 STEM 数据集 | 文本 | 175M | OpenStax - CC BY-SA 子集;GSM8K;开放教科书图书馆 - CC BY-SA 与 GNU 子集 | DeepSeek-R1,DeepSeek-V3;DeepSeek-V3-0324;Qwen2.5-72B |
| Nemotron-PrismMath | 文本 | 4.6B | Big-Math-RL-Verified;OpenR1-Math-220k | Qwen2.5-0.5B-instruct,Qwen2.5-72B-Instruct;DeepSeek-R1-Distill-Qwen-32B |
| 基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成问答数据 | 文本 | 350M | arXiv;美国国立卫生研究院 ExPorter;BioRxiv;PMC 文章;USPTO 背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY 与 CC BY-SA 子集;NDLTD | Qwen2.5-72B-Instruct |
| 基于 phi-4 刷新的 Nemotron-MIND | 文本 | 73B | Common Crawl | phi-4 |
| Nemotron-CC-Math-4plus | 文本 | 52.3B | Common Crawl | phi-4 |
| Nemotron-CC-Math-3 | 文本 | 80.9B | Common Crawl | phi-4 |
| 基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子,由 DeepSeek-V3 和 DeepSeek-V3-0324 生成的合成 AGIEval 数据集 | 文本 | 4.0B | AQUA-RAT;LogiQA;AR-LSAT | DeepSeek-V3;DeepSeek-V3-0324 |
| 基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子,由 Qwen3-30B-A3B 生成的合成 AGIEval 数据集 | 文本 | 4.2B | AQUA-RAT;LogiQA;AR-LSAT | Qwen3-30B-A3B |
| 基于 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 生成的合成解题技巧数据集 | 文本 | 解题技巧;美国数学竞赛 8;美国数学竞赛 10;GSM8K;PRM800K | Qwen2.5-32B-Instruct;Qwen2.5-Math-72B;Qwen2.5-Math-7B;Qwen2.5-72B-Instruct | |
| 基于 DeepSeek-R1 生成的合成 MMLU 辅助训练数据集 | 文本 | 0.5B | MMLU 辅助训练 | DeepSeek-R1 |
| 基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成长上下文持续训练后数据 | 文本 | arXiv;美国国立卫生研究院 ExPorter;BioRxiv;PMC 文章;USPTO 背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY 与 CC BY-SA 子集;NDLTD | Qwen2.5-72B-Instruct | |
| 基于 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 生成的合成 Common Crawl 数据集 | 文本 | 415.8B | Common Crawl | Qwen3-30B-A3B;Mistral-NeMo-12B-Instruct |
| 基于 Qwen3-30B-A3B 从 Common Crawl 生成的合成多语言数据 | 文本 | Common Crawl | Qwen3-30B-A3B | |
| 基于 Qwen3-30B-A3B 从 Wikimedia 生成的合成多语言数据 | 文本 | Wikimedia | Qwen3-30B-A3B | |
| 基于 Nemotron-4-340B-Instruct 从 Wikimedia 生成的合成数学数据 | 文本 | - | Nemotron-4-340B-Instruct | |
| 基于 phi-4 生成的合成 Common Crawl 代码数据集 | 文本 | 427.9B | Common Crawl | phi-4 |
| 基于 Qwen3-235B-A22B 生成的合成科学编码数据集 | 文本 | 1.2B | Wikimedia | Qwen3-235B-A22B |
| 工具调用数据 | 文本 | 26.2B | Qwen3-235B-A22B-2507;gpt-oss-120b | |
| 基于 QwQ-32B 生成的合成 Essential-Web 数据集 | 文本 | 28.1B | Essential-Web | QwQ-32B |
| 翻译的合成抓取数据 | 文本 | 389.9B | Common Crawl | Qwen3-30B-A3B |
| 翻译的合成维基百科数据 | 文本 | 7.9B | Wikimedia | Qwen3-30B-A3B |
| 基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成解题技巧数据集 | 文本 | 未公开 | 解题技巧;美国数学竞赛 8;美国数学竞赛 10 | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 Stack Exchange 数据集 | 文本 | 未公开 | Stack Exchange | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 基于 DeepSeek-R1-0528 生成的合成 OpenCodeReasoning 数据集 | 文本 | 未公开 | OpenCodeReasoning | DeepSeek-R1-0528 |
| 基于 DeepSeek-R1-0528 生成的合成 HackerRank 编码数据集 | 文本 | 未公开 | HackerRank 编码数据集 | DeepSeek-R1-0528 |
| 基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集 | 文本 | 未公开 | SWE-Gym | Qwen3-Coder-480B-A35B-Instruct |
| 基于 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 生成的合成解题技巧与 Stack Exchange 数据集 | 文本 | 未公开 | 解题技巧;美国数学竞赛 8;美国数学竞赛 10;Stack Exchange | gpt-oss-120b;Qwen2.5-32B-Instruct;Goedel-Prover-V2-32B |
| 基于 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 生成,并由 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译的合成多语言科学与代码数据 | 文本 | 未公开 | Stack Exchange;SCP-116K;LIMO;TACO;代码竞赛;Codeforces | DeepSeek-R1;DeepSeek-R1-0528;Qwen2.5-32B-Instruct;Qwen3-235B-A22B; |
| 基于 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 生成的合成安全数据集 | 文本 | 未公开 | Nemotron 内容安全数据集 V2;Gretel 合成安全对齐数据集;RedTeam-2K;恶意任务;Nemotron-Personas-USA | DeepSeek-R1-0528;gpt-oss-120b;Mixtral-8x7B-v0.1 |
| 基于 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 生成的合成 STEM 数据集 | 文本 | 未公开 | arXiv;美国国立卫生研究院 ExPorter;BioRxiv;PMC 文章;USPTO 背景资料;peS2o;全球法规;CORE;PG-19;DOAB CC BY 与 CC BY-SA 子集;NDLTD | Qwen3-235B-A22B-Instruct-2507;gpt-oss-120b |
| 基于 DeepSeek-R1-0528 生成的合成 KernelBook 数据集 | 文本 | 未公开 | KernelBook | DeepSeek-R1-0528 |
| 基于 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 生成的合成工具调用数据集 | 文本 | 未公开 | ToolBench;glaive-function-calling-v2;APIGen 函数调用;Nemotron-Personas-USA | Qwen3-235B-A22B-Thinking-2507;Qwen3-Next-80B-A3B-Thinking |
| 基于 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 生成的合成聊天数据集 | 文本 | 未公开 | C4;LMSYS-Chat-1M;ShareGPT;GSM8K;PRM800K;FinQA;WikiTableQuestions;谜语;glaive-function-calling-v2;SciBench;tigerbot-kaggle-leetcodesolutions-en-2k;OpenBookQA;高级推理基准;Software Heritage;可汗学院数学关键词;WildChat-1M;Nemotron-Personas-USA | gpt-oss-120b;Mixtral-8x22B-Instruct-v0.1;Qwen3-235B-A22B-Instruct-2507;Qwen3-235B-A22B-Thinking-2507 |
| 基于 Qwen3-235B-A22B-Instruct-2507 生成的合成长上下文数据集 | 文本 | 未公开 | CORE;PG-19;DOAB CC BY 与 CC BY-SA 子集;NDLTD | Qwen3-235B-A22B-Instruct-2507 |
| 基于 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 生成的合成工具使用交互式智能体数据集 | 文本 | 未公开 | NVIDIA 内部 | gpt-oss-120b;DeepSeek-R1-0528;Qwen3-32B;以及 Qwen3-235B-A22B-Thinking-2507 |
| 基于 Qwen3-235B-A22B-Thinking-2507 生成的合成 STEM 数据集 | 文本 | 未公开 | ICHO-IPH0;Physics Big;Scale HLE;OpenMathReasoning;OpenCodeReasoning | Qwen3-235B-A22B-Thinking-2507 |
| 基于 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 生成的合成 DocFinQA 和 SWE-smith 数据集 | 文本 | 未公开 | DocFinQA;SWE-smith | Qwen3-Coder-480B-A35B-Instruct;Kimi-K2-Thinking |
| 基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成数学数据集 | 文本 | 未公开 | - | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 基于 gpt-oss-120b 生成的合成 Essential-Web 数据集 | 文本 | 未公开 | Essential-Web | gpt-oss-120b |
| 基于 gpt-oss-120b 生成的合成 Scale HLE 数据集 | 文本 | 未公开 | Scale HLE | gpt-oss-120b |
| 基于 gpt-oss-120b 生成的合成 CDQuestions 数据集 | 文本 | 未公开 | CDQuestions | gpt-oss-120b |
| 基于 gpt-oss-120b 生成的合成 Stack Exchange 数据集 | 文本 | 未公开 | Stack Exchange | gpt-oss-120b |
| 基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 GPQA 数据集 | 文本 | 未公开 | Stack Exchange | gpt-oss-120b;Qwen2.5-32B-Instruct |
| 基于 gpt-oss-120b 生成的合成 Vedantu 数据集 | 文本 | 未公开 | Vedantu | gpt-oss-120b |
| 基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集 | 文本 | 未公开 | SWE-Gym;R2E-Gym-Subset | Qwen3-Coder-480B-A35B-Instruct |
| 基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集 | 文本 | 未公开 | SWE-Gym | Qwen3-Coder-480B-A35B-Instruct |
| 基于 DeepSeek-R1-0528 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集 | 文本 | 未公开 | SWE-Gym;R2E-Gym-Subset | DeepSeek-R1-0528 |
| 来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA | 文本 | 未公开 | HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USA | gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507 |
| 来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出 | 文本 | 未公开 | - | Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507 |
| 来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM 多项选择题 | 文本 | 未公开 | - | Qwen3-235B-A22B; DeepSeek-R1-0528 |
| 来自 DeepSeek-R1-0528 的合成搜索 STEM 开放式问题 | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM | 文本 | 未公开 | - | Qwen2.5-32B-Instruct; DeepSeek-R1-0528 |
| 来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成多项选择题 | 文本 | 未公开 | - | Qwen2.5-32B-Instruct; DeepSeek-R1-0528 |
| 来自 DeepSeek-R1-0528 的合成 MCQ10 | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 | 文本 | 未公开 | - | Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507 |
| 来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning | 文本 | 未公开 | OpenMathReasoning | gpt-oss-120b; Qwen2.5-32B-Instruct |
| 来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE | 文本 | 未公开 | - | DeepSeek-R1-0528 |
| 来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA | 文本 | 未公开 | - | Qwen3-235B-A22B; DeepSeek-R1-0528 |
| 来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好 | 文本 | 未公开 | - | QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528 |
| 来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k | 文本 | 未公开 | WildChat-1M; arena-human-preference-140k | DeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B |
| 来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全性数据 | 文本 | 未公开 | Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; | DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1 |
| 来自 Qwen3-32B 的合成代码 | 文本 | 未公开 | English Common Crawl; English Common Crawl 1.1 | Qwen3-32B |
| 来自 DeepSeek-R1 的合成 OpenCodeReasoning | 文本 | 未公开 | OpenCodeReasoning | DeepSeek-R1 |
| 来自 DeepSeek-R1-0528 的合成 LIMO | 文本 | 未公开 | LIMO | DeepSeek-R1-0528 |
| 来自 DeepSeek-R1-0528 的合成 SCP | 文本 | 未公开 | SCP-116K | DeepSeek-R1-0528 |
| 来自 DeepSeek-R1-0528 的合成 Stack Exchange | 文本 | 未公开 | Stack Exchange | DeepSeek-R1-0528 |
| 来自 Qwen3-30B-A3B 的合成 Common Crawl | 文本 | 未公开 | Common Crawl | Qwen3-30B-A3B |
| 来自 Qwen3-30B-A3B 的合成 Wikipedia | 文本 | 未公开 | Wikimedia | Qwen3-30B-A3B |
| 来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web | 文本 | 未公开 | Essential-Web | Qwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507 |
| 来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学 | 文本 | 未公开 | Common Crawl; FineMath | Qwen3-30B-A3B; Qwen3-235B-A22B; phi-4 |
| 来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码 | 文本 | 未公开 | Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoT | DeepSeek-R1; DeepSeek-R1-0528 |
| 来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA | 文本 | 未公开 | Nemotron-Personas-USA | gpt-oss-120b; Qwen3-8B |
训练数据集
| 数据集 | Nemotron Nano 2 的标记数 | Nemotron 3 Nano 的标记数 |
|---|---|---|
| English Common Crawl | 3,360,110,334,818 | 3,456,523,212,210 |
| English Synthetic CC | 1,949,464,641,123 | 4,340,740,677,920 |
| Crawl++ | 360,389,153,262 | 360,389,153,262 |
| Math | 124,606,230,663 | 154,217,502,165 |
| Synthetic Math | 73,007,767,155 | 73,007,767,155 |
| Code | 747,409,228,724 | 1,043,856,922,136 |
| Synthetic Code | 175,067,553,293 | 453,117,917,176 |
| Common Crawl Code | 0 | 263,072,374,097 |
| English Wiki | 17,349,266,926 | 17,349,266,926 |
| Synthetic Wiki | 0 | 7,850,648,552 |
| Books | 0 | 0 |
| Papers | 191,586,493,365 | 191,586,493,365 |
| PDF-to-text | 141,096,578,533 | 141,096,578,533 |
| Code SFT | 60,025,726,817 | 102,863,752,325 |
| STEM SFT | 272,680,426,295 | 359,826,214,274 |
| General SFT | 6,057,478,645 | 6,057,478,645 |
| Tool-Calling SFT | 0 | 26,244,716,867 |
| Multilingual | 2,172,261,909,350 | 1,743,892,490,859 |
| Synthetic multilingual | 997,710,364,950 | 595,140,661,135 |
| Total | 10,648,823,153,919 | 13,336,833,827,602 |
我们使用了大量的合成数据。在10.6万亿标记中,有3,534,013,958,278个标记是通过合成生成的。
我们从以下三个Common Crawl快照中提取了15种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这15种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此我们仅应用了启发式过滤——类似于我们在Nemotron-CC流程中对质量较低的英语数据所做的处理,但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。此外,我们还将Wikipedia和FineWeb-2(Penedo et al., 2025)的数据用于这15种语言以及另外4种语言:捷克语、芬兰语、希伯来语和印地语。
| 语言 | 总标记数 |
|---|---|
| Arabic | 118,056,362,726 |
| Danish | 117,747,321,618 |
| German | 146,613,691,781 |
| Spanish | 469,156,575,409 |
| French | 139,982,002,289 |
| Italian | 298,858,370,174 |
| Japanese | 682,755,693,336 |
| Korean | 127,099,747,538 |
| Dutch | 89,041,592,681 |
| Polish | 105,356,493,147 |
| Portuguese | 243,249,275,089 |
| Russian | 185,314,014,057 |
| Swedish | 74,954,953,299 |
| Thai | 160,778,944,467 |
| Chinese | 211,007,236,689 |
我们共收集了43种不同语言的922,476,782,017个代码标记。
| 语言 | 标记数 |
|---|---|
| Assembly | 750,628,764 |
| C | 42,657,300,868 |
| C# | 56,153,329,307 |
| C++ | 67,773,701,658 |
| CommonLisp | 263,234,672 |
| CSS | 38,848,760,035 |
| Cuda | 400,222,993 |
| Dart | 3,816,960,470 |
| Dockerfile | 474,958,084 |
| Fortran | 1,105,049,387 |
| Go | 8,332,419,480 |
| Haskell | 1,294,613,669 |
| HTML | 69,082,117,487 |
| Java | 131,440,465,822 |
| JavaScript | 75,573,420,861 |
| JSON | 15,366,881,241 |
| Julia | 621,046,949 |
| JupyterNotebook | 2,241,893,197 |
| Lua | 4,146,420,802 |
| Makefile | 12,640,010,879 |
| Markdown | 64,796,743,311 |
| Mathematica | 320,504,225 |
| OmniversePython | 26,946,093 |
| Pascal | 1,625,013,876 |
| Perl | 1,575,314,434 |
| PHP | 61,575,339,005 |
| Python | 126,916,727,384 |
| R | 19,811,381,935 |
| reStructuredText | 1,779,876,391 |
| Ruby | 6,446,962,615 |
| Rust | 4,438,640,533 |
| Scala | 3,343,959,154 |
| Shell | 18,758,779,250 |
| SQL | 23,205,633,085 |
| Swift | 5,976,714,881 |
| SystemVerilog | 233,056,185 |
| TeX | 7,347,157,527 |
| TypeScript | 15,657,838,582 |
| Verilog | 811,884,369 |
| VHDL | 648,401,444 |
| VisualBasic.NET | 1,005,680,881 |
| XML | 12,616,779,741 |
| YAML | 10,574,010,491 |
训练后语言分布
在我们的训练后方案中,除英语外,我们重点关注了5种主要语言:西班牙语、法语、日语、意大利语和德语。
这些语言以多语言推理和翻译任务的形式呈现。
下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。
| 语言 | 规模 |
|---|---|
| English | 16.2 M |
| Italian | 0.252M |
| German | 0.252M |
| Spanish | 0.252M |
| French | 0.252M |
| Japanese | 0.252M |
| English <-> Italian | 108k |
| English <-> German | 108k |
| English <-> Spanish | 108k |
| English <-> French | 108k |
| English <-> Japanese | 108k |
评估数据集
- 数据集的数据收集方法:混合式:人工、合成
- 数据集的标注方法:混合式:自动化、人工、合成
推理
- 引擎:HF、vLLM、TRT-LLM、SGLang、Llama.cpp
- 测试硬件:NVIDIA A100 80GB、H100 80GB、B200 192GB、RTX PRO 6000 96GB、Jetson Thor、DGX Spark
伦理考量
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时,开发人员应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对意外的产品误用。
我们建议不要规避模型中包含的任何安全防护措施,除非针对您的用例有实质上类似的防护措施。更多详情:安全性和可解释性子卡片。
有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的偏见和隐私子卡片。
引用格式
@misc{nvidia_nemotron_nano_v3_2025,
title = {{Nemotron 3 Nano}: Open, Efficient Mixture-of-Experts Hybrid {Mamba}-{Transformer} Model for {Agentic} Reasoning},
author = {{NVIDIA}},
year = {2025},
url = {https://arxiv.org/abs/2512.20848},
note = {Technical report}
}