NVIDIA-Nemotron-3-Nano-30B-A3B-BF16:混合MoE架构大语言模型,支持多语言推理与代码生成,商用就绪

NVIDIA研发的统一推理与非推理任务大语言模型,采用混合MoE架构,支持英、德、西等多语言,可生成推理轨迹提升准确率,适用于AI代理、聊天机器人等应用,已就绪商用。【此简介由AI生成】

分支1Tags0
文件最后提交记录最后更新时间
Upload local_nvidia_nemotron_3_nano_30b_a3b.yaml5 个月前
Upload accuracy_chart.png5 个月前
Add vLLM example w/ 1M context length (#38) - Add vLLM example w/ 1M context length (a7827f58c69fb9db6b791916cae7cc86bef763bf) 4 个月前
Upload accuracy_chart.png5 个月前
Upload 4 files5 个月前
Upload 2 files5 个月前
Update config.json (#37) - Update config.json (863a6ca576039edbf51691104845a049dd27e4da) 4 个月前
Upload folder using huggingface_hub5 个月前
Upload 4 files5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload modeling_nemotron_h.py5 个月前
Upload nano_v3_reasoning_parser.py5 个月前
Upload notebook.ipynb (#1) - Upload notebook.ipynb (9a9fe6832ea32304dcfa97edca75e5867069aa3a) Co-authored-by: ben burtenshaw <burtenshaw@users.noreply.huggingface.co> 5 个月前
Upload 4 files5 个月前
Upload 4 files5 个月前
Upload folder using huggingface_hub5 个月前
Upload folder using huggingface_hub5 个月前
Upload 2 files5 个月前

library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ pipeline_tag: text-generation language:

  • en
  • es
  • fr
  • de
  • ja
  • it tags:
  • nvidia
  • pytorch datasets:
  • nvidia/Nemotron-Pretraining-Code-v1
  • nvidia/Nemotron-CC-v2
  • nvidia/Nemotron-Pretraining-SFT-v1
  • nvidia/Nemotron-CC-Math-v1
  • nvidia/Nemotron-Pretraining-Code-v2
  • nvidia/Nemotron-Pretraining-Specialized-v1
  • nvidia/Nemotron-CC-v2.1
  • nvidia/Nemotron-CC-Code-v1
  • nvidia/Nemotron-Pretraining-Dataset-sample
  • nvidia/Nemotron-Competitive-Programming-v1
  • nvidia/Nemotron-Math-v2
  • nvidia/Nemotron-Agentic-v1
  • nvidia/Nemotron-Math-Proofs-v1
  • nvidia/Nemotron-Instruction-Following-Chat-v1
  • nvidia/Nemotron-Science-v1
  • nvidia/Nemotron-3-Nano-RL-Training-Blend track_downloads: true

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

模型概述

模型开发者: NVIDIA Corporation

模型日期:

2025年9月 - 2025年12月

数据时效性:

  • 训练后数据的截止日期为2025年11月28日。
  • 预训练数据的截止日期为2025年6月25日。

描述

Nemotron-3-Nano-30B-A3B-BF16是由NVIDIA从头开始训练的大型语言模型(LLM),设计为适用于推理和非推理任务的统一模型。它通过首先生成推理轨迹,然后得出最终响应来响应用户的查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。如果用户希望模型直接提供最终答案而不展示中间推理过程,可以进行相应设置,尽管对于需要推理的较难提示,其准确性会略有下降。相反,允许模型先生成推理轨迹通常会为查询和任务带来更高质量的最终解决方案。

该模型采用混合专家混合(Mixture-of-Experts, MoE)架构,由23个Mamba-2和MoE层以及6个注意力层组成。每个MoE层包含128个专家和1个共享专家,每个token激活6个专家。该模型的活跃参数为35亿,总参数为300亿。

支持的语言包括:英语、德语、西班牙语、法语、意大利语和日语。使用Qwen进行了改进。

此模型已准备好用于商业用途。

什么是Nemotron?

NVIDIA Nemotron™是一系列开放模型,包含开放权重、训练数据和训练方法,为构建专业AI智能体提供卓越的效率和准确性。

要开始使用,您可以参考下方的快速入门指南

功能投票

我们希望听取您的意见!分享您的想法,为重要的功能投票,帮助塑造Nemotron的未来

许可/使用条款

管辖条款:使用本模型受NVIDIA Nemotron开放模型许可协议约束。

推理基准评估

我们在以下基准上对模型进行了评估:

任务 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 Qwen3-30B-A3B-Thinking-2507 GPT-OSS-20B
通用知识
MMLU-Pro 78.3 80.9 75.0
推理能力
AIME25(无工具) 89.1 85.0 91.7
AIME25(有工具) 99.2 - 98.7
GPQA(无工具) 73.0 73.4 71.5
GPQA(有工具) 75.0 - 74.2
LiveCodeBench(v6 2025-08–2025-05) 68.3 66.0 61.0
SciCode(子任务) 33.3 33.0 34.0
HLE(无工具) 10.6 9.8 10.9
HLE(有工具) 15.5 - 17.3
MiniF2F pass@1 50.0 5.7 12.1
MiniF2F pass@32 79.9 16.8 43.0
智能体能力
Terminal Bench(困难子集) 8.5 5.0 6.0
SWE-Bench(OpenHands) 38.8 22.0 34.0
TauBench V2(航空领域) 48.0 58.0 38.0
TauBench V2(零售领域) 56.9 58.8 38.0
TauBench V2(电信领域) 42.2 26.3 49.7
TauBench V2(平均值) 49.0 47.7 48.7
BFCL v4 53.8 46.4* -
对话与指令遵循
IFBench(提示词) 71.5 51.0 65.0
Scale AI Multi Challenge 38.5 44.8 33.8
Arena-Hard-V2(困难提示词) 72.1 49.6* 71.2*
Arena-Hard-V2(创意写作) 63.2 66.0* 25.9&
Arena-Hard-V2(平均值) 67.7 57.8 48.6
长上下文
AA-LCR 35.9 59.0 34.0
RULER-100@256k 92.9 89.4 -
RULER-100@512k 91.3 84.0 -
RULER-100@1M 86.3 77.5 -
多语言能力
MMLU-ProX(语言平均值) 59.5 77.6* 69.1*
WMT24++(en->xx) 86.2 85.6 83.2

所有评估结果均通过Nemo Evaluator SDKNemo Skills收集。用于评估的、通过NVIDIA Nemo Evaluator SDK打包的Nemo Skills开源容器可在此处找到。除Nemo Skills外,评估还使用了Tau-2 Bench、ArenaHard v2、AA_LCR的专用打包容器。包含所有配置的可复现教程可在Nemo Evaluator SDK示例中找到。配置文件也可在此HF仓库的此处获取。*表示准确度数值由我们测量。

部署地区:全球

应用场景

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 是一款通用推理与对话模型,适用于英语和编程语言。同时也支持其他非英语语言(英语、西班牙语、法语、德语、日语、意大利语)。该模型面向设计 AI 智能体系统、聊天机器人、RAG 系统及其他 AI 驱动应用的开发者。此外,该模型也适用于典型的指令遵循任务。

发布日期

2025 年 12 月 15 日,通过 Hugging Face 发布

参考资料

模型架构

  • 架构类型:Mamba2-Transformer 混合专家模型(MoE)
  • 网络架构:Nemotron 混合 MoE
  • 模型参数数量:300 亿

模型设计

该模型使用 25 万亿 tokens 进行训练,批大小为 3072,并采用 Warmup-Stable-Decay(WSD)学习率调度策略,其中学习率预热阶段为 80 亿 tokens,峰值学习率为 1e-3,最小学习率为 1e-5。模型共包含 52 层,其中 MoE 层和 Mamba-2 层各 23 层,剩余 6 层采用分组查询注意力(GQA),包含 2 个分组。每个 MoE 层包含 128 个路由专家和 1 个共享专家,每个 token 激活 6 个专家。

训练方法

阶段 1:预训练

阶段 2:有监督微调

阶段 3:强化学习

  • 模型在数学、代码、科学、指令遵循、多步骤工具使用、多轮对话和结构化输出环境中,使用同步 GRPO(Group Relative Policy Optimization)进行多环境强化学习。通过使用 生成式奖励模型 的 RLHF 进一步优化了对话质量。所有数据集均在本文档的 训练、测试和评估数据集 部分披露。RL 环境和数据集作为 NeMo Gym 的一部分发布。
  • 用于强化学习的软件:NeMo RLNeMo Gym

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 模型是上述工作的成果。

端到端训练方案可在 NVIDIA Nemotron 开发者仓库 中获取。评估结果可使用 NeMo Evaluator SDK 复现。Data Designer 是用于准备预训练和后训练数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参见技术报告 NVIDIA Nemotron 3 Nano

输入

  • 输入类型: 文本

  • 输入格式: 字符串

  • 输入参数: 一维(1D):序列

  • 最大输入大小: 100万 token

  • 与输入相关的其他属性: 支持的语言包括:英语、西班牙语、法语、德语、日语、意大利语

输出

  • 输出类型: 文本

  • 输出格式: 字符串

  • 输出参数: 一维(1D):序列

  • 最大输出大小: 100万 token

我们的 AI 模型经过专门设计和优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

  • 运行时引擎:NeMo 25.11.01
  • 支持的硬件微架构兼容性:NVIDIA H100-80GB、NVIDIA A100
  • 操作系统:Linux

将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全和道德标准。

快速入门指南

使用 Transformers

以下代码片段展示了如何结合 Huggingface Transformers(在 4.57.3 版本上测试)使用此模型。我们建议使用 NeMo Framework 25.11.01,以确保所有必需的库均可用。

请注意,该模型支持高达 100 万 token 的上下文长度,但由于较高的显存需求,Hugging Face 配置中的默认上下文长度为 256k token。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16")
model = AutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
messages = [
    {"role": "user", "content": "Write a haiku about GPUs"},
]

tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    tokenized_chat,
    max_new_tokens=1024,
    temperature=1.0,
    top_p=1.0,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

temperature=1.0top_p=1.0 推荐用于推理任务,而 temperature=0.6top_p=0.95 推荐用于工具调用。

如果您想关闭推理功能,请在 apply_chat_template() 中添加 enable_thinking=False。默认情况下,enable_thinking 设为 True


tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    enable_thinking=False,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

# Use Greedy Search for reasoning off
outputs = model.generate(
    tokenized_chat,
    max_new_tokens=32,
    do_sample=False,
    num_beams=1,
    eos_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0]))

与 vLLM 配合使用

有关如何将模型与 vLLM 配合使用的更多详细信息,请参见此使用指南。 如果您使用的是 Jetson Thor 或 DGX Spark,请使用此 vllm 容器

pip install -U "vllm>=0.12.0"

从 Hugging Face 仓库下载自定义解析器。

wget https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16/resolve/main/nano_v3_reasoning_parser.py

使用自定义解析器启动 vLLM 服务器。

vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --served-model-name model \
  --max-num-seqs 8 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --port 8000 \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin nano_v3_reasoning_parser.py \
  --reasoning-parser nano_v3

在上述示例中,我们使用了256k的上下文长度。您可以将上下文大小增加至1M,以支持更长的上下文。

若要启用此功能,请按以下方式设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=1环境变量:

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --served-model-name model \
  --max-num-seqs 8 \
  --tensor-parallel-size 1 \
  --max-model-len 1M \
  --port 8000 \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin nano_v3_reasoning_parser.py \
  --reasoning-parser nano_v3

以下是 vLLM 的客户端代码示例。默认情况下,端点已启用推理功能。我们建议将 max_tokens 设置为较高的值(例如 10,000)。

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "model",
        "messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
        "max_tokens": 10000
    }'

如果您希望在 vLLM 中关闭推理功能,可以按以下步骤操作:
vLLM OpenAI curl 请求:

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "model",
        "messages":[{"role": "user", "content": "Write a haiku about GPUs"}],
        "chat_template_kwargs": {"enable_thinking": false}
    }'

vLLM OpenAI 客户端:

response = client.chat.completions.create(model=model, messages=messages, extra_body={"chat_template_kwargs": {"enable_thinking": False}})

与 TRT-LLM 配合使用

有关如何将模型与 TRT-LLM 配合使用的更多详细信息,请参见此手册

# nano_v3 example yaml is https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/auto_deploy/nano_v3.yaml
trtllm-serve <model_path> \
--backend _autodeploy \
--trust_remote_code \
--reasoning_parser nano-v3 \
--tool_parser qwen3_coder \
--extra_llm_api_options nano_v3.yaml

与 SGLang 配合使用

有关如何将模型与 SGLang 配合使用的更多详细信息,请参见此手册

python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 \
  --trust-remote-code \
  --tp 1 \
  --attention-backend flashinfer \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nano_v3

使用预算控制

思考预算使开发人员能够在保持高精度的同时满足响应时间目标——这在客户支持、自主代理步骤以及边缘设备等每毫秒都至关重要的场景中尤为关键。

借助预算控制,您可以为内部推理设置限制:

  • reasoning_budget:这是一个阈值,将尝试在推理跟踪中遇到的下一个换行符处结束推理跟踪。如果在500个token内未遇到换行符,推理跟踪将在reasoning_budget + 500处突然结束。

注意:此客户端可与任何兼容OpenAI API的端点配合使用。

支持预算控制的客户端:

from typing import Any, Dict, List

import openai
from transformers import AutoTokenizer


class ThinkingBudgetClient:
   def __init__(self, base_url: str, api_key: str, tokenizer_name_or_path: str):
       self.base_url = base_url
       self.api_key = api_key
       self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
       self.client = openai.OpenAI(base_url=self.base_url, api_key=self.api_key)


   def chat_completion(
       self,
       model: str,
       messages: List[Dict[str, Any]],
       reasoning_budget: int = 512,
       max_tokens: int = 1024,
       **kwargs,
   ) -> Dict[str, Any]:
       assert (
           max_tokens > reasoning_budget
       ), f"thinking budget must be smaller than maximum new tokens. Given {max_tokens=} and {reasoning_budget=}"


       # 1. first call chat completion to get reasoning content
       response = self.client.chat.completions.create(
           model=model, messages=messages, max_tokens=reasoning_budget, **kwargs
       )
       content = response.choices[0].message.content


       reasoning_content = content
       if not "</think>" in reasoning_content:
           # reasoning content is too long, closed with a period (.)
           reasoning_content = f"{reasoning_content}.\n</think>\n\n"
       reasoning_tokens_len = len(
           self.tokenizer.encode(reasoning_content, add_special_tokens=False)
       )
       remaining_tokens = max_tokens - reasoning_tokens_len
       assert (
           remaining_tokens > 0
       ), f"remaining tokens must be positive. Given {remaining_tokens=}. Increase the max_tokens or lower the reasoning_budget."


       # 2. append reasoning content to messages and call completion
       messages.append({"role": "assistant", "content": reasoning_content})
       prompt = self.tokenizer.apply_chat_template(
           messages,
           tokenize=False,
           continue_final_message=True,
       )
       response = self.client.completions.create(
           model=model, prompt=prompt, max_tokens=remaining_tokens, **kwargs
       )


       response_data = {
           "reasoning_content": reasoning_content.strip().strip("</think>").strip(),
           "content": response.choices[0].text,
           "finish_reason": response.choices[0].finish_reason,
       }
       return response_data

使用预算调用服务器(此处示例限制为 32 个 tokens)

tokenizer_name_or_path = "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16"
client = ThinkingBudgetClient(
   base_url="http://localhost:8000/v1",  # Nemotron 3 Nano deployed in thinking mode
   api_key="EMPTY",
   tokenizer_name_or_path=tokenizer_name_or_path,
)


result = client.chat_completion(
   model="nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
   messages=[
       {"role": "system", "content": "You are a helpful assistant. /think"},
       {"role": "user", "content": "What is 2+2?"},
   ],
   reasoning_budget=32,
   max_tokens=512,
   temperature=1.0,
   top_p=1.0,
)
print(result)

您应该会看到类似以下的输出:

{'reasoning_content': "Okay, the user asked, What is 2+2? Let me think. Well, 2 plus 2 equals 4. That's a basic.", 'content': '2 + 2 equals **4**.\n', 'finish_reason': 'stop'}

模型版本

  • v1.0

训练、测试与评估数据集

数据模态: 文本
总大小: 10,648,823,153,919 个 token
数据集总数: 141 个
数据集划分: 训练集[100%]、测试集[0%]、验证集[0%]
训练数据收集时间范围: 2013 年至 2025 年 5 月 1 日
测试数据收集时间范围: 2013 年至 2025 年 5 月 1 日
验证数据收集时间范围: 2013 年至 2025 年 5 月 1 日
数据集收集方法: 混合:自动化、人工、合成
数据集标注方法: 混合:自动化、人工、合成

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 在大规模高质量精选和合成生成数据集上进行预训练。其训练语言包括英语、19 种其他自然语言以及 43 种编程语言。我们的数据源涵盖多种文档类型,如网页、对话、文章及其他书面材料。语料库涉及法律、数学、科学、金融等多个领域。我们还纳入了小部分问答和对齐风格数据,以提升模型准确性。该模型的训练量约为 25 万亿 tokens。

NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 的训练后语料库包含高质量的精选和合成生成数据。训练后阶段使用的主要语言包括英语、德语、西班牙语、法语、意大利语和日语。

这些数据集(如 FinePDFs、EssentialWeb、HotpotQA、SQuAD 和 HelpSteer3)并未全面或充分代表所有人口统计群体(及其比例)。例如,64%-99% 的样本中未明确提及年龄、性别或种族等人口统计类别,具体比例因来源而异。在提及此类术语的子集中,基于文档的数据集(FinePDFs 和 EssentialWeb)存在代表性偏差,例如“男性”的提及次数多于“女性”,“白人”是种族标识中最常见的(占种族提及的 43%-44%)。为缓解这些不平衡,我们建议采用偏差审计、使用人口统计平衡的数据集进行微调以及反事实数据增强等缓解策略,以符合期望的模型行为。本评估在每个数据集上使用 3,000 样本子集,该规模被确定为最大化嵌入器准确性的最佳阈值。

在训练后阶段,我们通过从强大的教师模型和智能体系统中提取轨迹、解决方案和翻译来生成合成数据,这些数据通常基于真实任务或文档,并经过严格的质量筛选。对于数学、代码和科学领域,我们从精选的问题集出发,使用开源许可模型(如 GPT-OSS-120B)生成逐步推理轨迹、候选解决方案、best-of-n 选择轨迹以及经过验证的 CUDA 内核。对于长上下文和科学领域,我们通过从长文档中检索段落、生成多项选择问答(MCQ)/开放式问答(OpenQA)问题与答案,并将其改写为多种提示/响应格式以确保多样性,从而构建合成问答和推理数据。在所有处理流程中,我们均采用自动化验证(编译器、数值检查、语言识别)以确保数据高质量。

针对所有领域,我们应用统一的数据筛选流程,确保只有高质量、符合许可要求且可验证的样本用于训练后阶段。首先,我们通过结构检查(例如,当存在工具调用时检查是否缺少工具定义)丢弃格式错误的样本。然后,我们严格筛选表现出病态重复的推理轨迹,例如在滑动窗口内或整个轨迹中出现重复的 n-gram,我们发现这是推理格式错误或质量低下的强烈指标。最后,基于对合成生成数据集的内部审计,我们观察到某些教师模型偶尔会生成隐含特定政治实体立场或宣扬民族主义叙事的推理轨迹和最终响应。为缓解此问题,我们应用基于关键词和正则表达式的定向过滤器,并移除所有符合此类行为的轨迹。

除模型外,我们还按本节所述发布最终的预训练训练后数据。为便于分析,我们提供了一个无需访问权限的样本集。对于所有其余的代码、数学和多语言数据,需要访问权限和审批,且该数据集在模型训练用途方面采用宽松许可。

有关数据集和合成数据生成方法的更多详情,请参见技术报告 NVIDIA Nemotron 3 Nano

数据集 收集时间
GSM8K 2025 年 4 月 23 日
CC-NEWS 2025 年 4 月 23 日
Common Crawl 2025 年 4 月 23 日
Wikimedia 2025 年 4 月 23 日
Bespoke-Stratos-17k 2025 年 4 月 23 日
tigerbot-kaggle-leetcodesolutions-en-2k 2025 年 4 月 23 日
glaive-function-calling-v2 2025 年 4 月 23 日
APIGen Function-Calling 2025 年 4 月 23 日
LMSYS-Chat-1M 2025 年 4 月 23 日
Open Textbook Library - CC BY-SA & GNU subsetOpenStax - CC BY-SA subset 2025 年 4 月 23 日
Advanced Reasoning Benchmark, tigerbot-kaggle-leetcodesolutions-en-2k, PRM800K, 和 SciBench 2025 年 4 月 23 日
FineWeb-2 2025 年 4 月 23 日
Court Listener 历史下载
peS2o 历史下载
OpenWebMath 历史下载
BioRxiv 历史下载
PMC Open Access Subset 历史下载
OpenWebText2 历史下载
Stack Exchange Data Dump 历史下载
PubMed Abstracts 历史下载
NIH ExPorter 历史下载
arXiv 历史下载
BigScience Workshop Datasets 历史下载
Reddit Dataset 历史下载
SEC's Electronic Data Gathering, Analysis, and Retrieval (EDGAR) 历史下载
Advanced Mathematical Problem Solving 历史下载
MathPile 历史下载
NuminaMath CoT 历史下载
PMC Article 历史下载
FLAN 历史下载
Advanced Reasoning Benchmark 历史下载
SciBench 历史下载
WikiTableQuestions 历史下载
FinQA 历史下载
Riddles 历史下载
Problems in Elementary Mathematics for Home Study 历史下载
MedMCQA 历史下载
Cosmos QA 历史下载
MCTest 历史下载
AI2's Reasoning Challenge 历史下载
OpenBookQA 历史下载
MMLU Auxiliary Train 历史下载
social-chemestry-101 历史下载
Moral Stories 历史下载
The Common Pile v0.1 历史下载
FineMath 历史下载
MegaMath 历史下载
MegaMath 历史下载
MultiverseMathHard 2025 年 10 月 2 日
SWE-Gym 2025 年 10 月 2 日
WorkBench 2025 年 10 月 2 日
WildChat-1M 2025 年 10 月 2 日
OpenCodeReasoning-2 2025 年 10 月 2 日
HelpSteer3 2025 年 10 月 2 日
opc-sft-stage2 2025 年 10 月 2 日
Big-Math-RL-Verified 2025 年 10 月 2 日
NuminaMath CoT 2025 年 10 月 2 日
MetaMathQA 2025 年 10 月 2 日
simple-arithmetic-problems 2025 年 10 月 2 日
arithmetic 2025 年 10 月 2 日
Skywork-OR1-RL-Data 2025 年 10 月 2 日
News Commentary 2025 年 10 月 2 日
FastChat 2025 年 10 月 2 日
Essential-Web 2025 年 10 月 2 日
finepdfs 2025 年 10 月 2 日
HotpotQA 2025 年 10 月 2 日
SQuAD2.0 2025 年 10 月 2 日
NLTK Words Lists 2025 年 10 月 2 日

第三方私有非公开可访问数据集

数据集
Global Regulation
TAUS Translation Memory
Scale HLE
HackerRank Coding

NVIDIA 私有非公开可访问数据集

数据集
Simple Minesweeper
Simple Sudoku
Multitool Typewriter Hard
Machine Translation of News Commentary and TAUS Translation Memory
Machine Translation of STEM data using Qwen2.5-14B-Instruct

NVIDIA 从在线来源爬取和抓取的数据

英语 Common Crawl 数据从 Common Crawl Foundation 下载(其抓取详情参见其常见问题解答),包括快照 CC-MAIN-2013-20 至 CC-MAIN-2025-13。随后,按照 Nemotron-CC 论文中描述的多种方式对数据进行去重和过滤。此外,我们从以下三个 Common Crawl 快照中提取了十五种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这十五种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可用的可靠多语言模型质量分类器,因此仅应用了启发式过滤——类似于我们在 Nemotron-CC 流程中对较低质量英语数据所做的处理,但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与 Nemotron-CC 采用的方式相同。

GitHub 爬取数据通过 GitHub REST API 和 Amazon S3 API 收集。每次爬取均按照其各自来源(GitHub 或 S3)设定的速率限制进行操作。我们收集原始源代码,随后移除所有许可证不在我们的宽松许可证集合中的代码(更多详情,请参见技术报告)。

数据集 模态 数据集大小 收集时间 收集机构
English Common Crawl Text 3.36T 4/8/2025 NVIDIA Advanced Deep Learning Research
English Common Crawl 1.1 Text Not disclosed 10/2/2025 NVIDIA Advanced Deep Learning Research
Multilingual Common Crawl Text 812.7B 5/1/2025 NVIDIA Advanced Deep Learning Research
GitHub Crawl Text 747.4B 4/29/2025 NVIDIA Advanced Deep Learning Research

NVIDIA 来源的合成数据集

数据集 模态 数据集大小 种子数据集 用于生成的模型
基于 DeepSeek-R1 生成的合成解题技巧数据集 文本 40B 解题技巧美国数学竞赛 8美国数学竞赛 10 DeepSeek-R1
基于 Mixtral-8x22B-v0.1 生成的合成道德故事与社会化学数据集 文本 327M social-chemestry-101道德故事 Mixtral-8x22B-v0.1
基于 OpenStax 种子,由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成社会科学数据集 文本 83.6M OpenStax - CC BY-SA 子集 DeepSeek-V3Mixtral-8x22B-v0.1Qwen2.5-72B
基于 OpenStax 种子,由 DeepSeek-V3、Mixtral-8x22B-v0.1 和 Qwen2.5-72B 生成的合成健康科学数据集 文本 9.7M OpenStax - CC BY-SA 子集 DeepSeek-V3Mixtral-8x22B-v0.1Qwen2.5-72B
基于 OpenStax、开放教科书图书馆和 GSM8K 种子,由 DeepSeek-R1、DeepSeek-V3、DeepSeek-V3-0324 和 Qwen2.5-72B 生成的合成 STEM 数据集 文本 175M OpenStax - CC BY-SA 子集GSM8K开放教科书图书馆 - CC BY-SA 与 GNU 子集 DeepSeek-R1DeepSeek-V3DeepSeek-V3-0324Qwen2.5-72B
Nemotron-PrismMath 文本 4.6B Big-Math-RL-VerifiedOpenR1-Math-220k Qwen2.5-0.5B-instructQwen2.5-72B-InstructDeepSeek-R1-Distill-Qwen-32B
基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成问答数据 文本 350M arXiv美国国立卫生研究院 ExPorterBioRxivPMC 文章USPTO 背景资料peS2o;全球法规;COREPG-19DOAB CC BY 与 CC BY-SA 子集NDLTD Qwen2.5-72B-Instruct
基于 phi-4 刷新的 Nemotron-MIND 文本 73B Common Crawl phi-4
Nemotron-CC-Math-4plus 文本 52.3B Common Crawl phi-4
Nemotron-CC-Math-3 文本 80.9B Common Crawl phi-4
基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子,由 DeepSeek-V3 和 DeepSeek-V3-0324 生成的合成 AGIEval 数据集 文本 4.0B AQUA-RATLogiQAAR-LSAT DeepSeek-V3DeepSeek-V3-0324
基于 AQUA-RAT、LogiQA 和 AR-LSAT 种子,由 Qwen3-30B-A3B 生成的合成 AGIEval 数据集 文本 4.2B AQUA-RATLogiQAAR-LSAT Qwen3-30B-A3B
基于 Qwen2.5-32B-Instruct、Qwen2.5-Math-72B、Qwen2.5-Math-7B 和 Qwen2.5-72B-Instruct 生成的合成解题技巧数据集 文本 解题技巧美国数学竞赛 8美国数学竞赛 10GSM8KPRM800K Qwen2.5-32B-InstructQwen2.5-Math-72BQwen2.5-Math-7BQwen2.5-72B-Instruct
基于 DeepSeek-R1 生成的合成 MMLU 辅助训练数据集 文本 0.5B MMLU 辅助训练 DeepSeek-R1
基于 Qwen2.5-72B-Instruct 从论文和许可书籍生成的合成长上下文持续训练后数据 文本 arXiv美国国立卫生研究院 ExPorterBioRxivPMC 文章USPTO 背景资料peS2o;全球法规;COREPG-19DOAB CC BY 与 CC BY-SA 子集NDLTD Qwen2.5-72B-Instruct
基于 Qwen3-30B-A3B 和 Mistral-Nemo-12B-Instruct 生成的合成 Common Crawl 数据集 文本 415.8B Common Crawl Qwen3-30B-A3BMistral-NeMo-12B-Instruct
基于 Qwen3-30B-A3B 从 Common Crawl 生成的合成多语言数据 文本 Common Crawl Qwen3-30B-A3B
基于 Qwen3-30B-A3B 从 Wikimedia 生成的合成多语言数据 文本 Wikimedia Qwen3-30B-A3B
基于 Nemotron-4-340B-Instruct 从 Wikimedia 生成的合成数学数据 文本 - Nemotron-4-340B-Instruct
基于 phi-4 生成的合成 Common Crawl 代码数据集 文本 427.9B Common Crawl phi-4
基于 Qwen3-235B-A22B 生成的合成科学编码数据集 文本 1.2B Wikimedia Qwen3-235B-A22B
工具调用数据 文本 26.2B Qwen3-235B-A22B-2507gpt-oss-120b
基于 QwQ-32B 生成的合成 Essential-Web 数据集 文本 28.1B Essential-Web QwQ-32B
翻译的合成抓取数据 文本 389.9B Common Crawl Qwen3-30B-A3B
翻译的合成维基百科数据 文本 7.9B Wikimedia Qwen3-30B-A3B
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成解题技巧数据集 文本 未公开 解题技巧美国数学竞赛 8美国数学竞赛 10 gpt-oss-120bQwen2.5-32B-Instruct
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 Stack Exchange 数据集 文本 未公开 Stack Exchange gpt-oss-120bQwen2.5-32B-Instruct
基于 DeepSeek-R1-0528 生成的合成 OpenCodeReasoning 数据集 文本 未公开 OpenCodeReasoning DeepSeek-R1-0528
基于 DeepSeek-R1-0528 生成的合成 HackerRank 编码数据集 文本 未公开 HackerRank 编码数据集 DeepSeek-R1-0528
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集 文本 未公开 SWE-Gym Qwen3-Coder-480B-A35B-Instruct
基于 gpt-oss-120b、Qwen2.5-32B-Instruct 和 Goedel-Prover-V2-32B 生成的合成解题技巧与 Stack Exchange 数据集 文本 未公开 解题技巧美国数学竞赛 8美国数学竞赛 10Stack Exchange gpt-oss-120bQwen2.5-32B-InstructGoedel-Prover-V2-32B
基于 DeepSeek-R1、DeepSeek-R1-0528、Qwen2.5-32B-Instruct 和 Qwen3-235B-A22B 生成,并由 Qwen2.5-32B-Instruct 和 Qwen2.5-14B-Instruct 翻译的合成多语言科学与代码数据 文本 未公开 Stack ExchangeSCP-116KLIMOTACO;代码竞赛;Codeforces DeepSeek-R1DeepSeek-R1-0528Qwen2.5-32B-InstructQwen3-235B-A22B
基于 DeepSeek-R1-0528、gpt-oss-120b 和 Mixtral-8x7B-v0.1 生成的合成安全数据集 文本 未公开 Nemotron 内容安全数据集 V2Gretel 合成安全对齐数据集RedTeam-2K恶意任务Nemotron-Personas-USA DeepSeek-R1-0528gpt-oss-120bMixtral-8x7B-v0.1
基于 Qwen3-235B-A22B-Instruct-2507 和 gpt-oss-120b 生成的合成 STEM 数据集 文本 未公开 arXiv美国国立卫生研究院 ExPorterBioRxivPMC 文章USPTO 背景资料peS2o;全球法规;COREPG-19DOAB CC BY 与 CC BY-SA 子集NDLTD Qwen3-235B-A22B-Instruct-2507gpt-oss-120b
基于 DeepSeek-R1-0528 生成的合成 KernelBook 数据集 文本 未公开 KernelBook DeepSeek-R1-0528
基于 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-Next-80B-A3B-Thinking 生成的合成工具调用数据集 文本 未公开 ToolBenchglaive-function-calling-v2APIGen 函数调用Nemotron-Personas-USA Qwen3-235B-A22B-Thinking-2507Qwen3-Next-80B-A3B-Thinking
基于 gpt-oss-120b、Mixtral-8x22B-Instruct-v0.1、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 生成的合成聊天数据集 文本 未公开 C4LMSYS-Chat-1MShareGPTGSM8KPRM800KFinQAWikiTableQuestions谜语glaive-function-calling-v2SciBenchtigerbot-kaggle-leetcodesolutions-en-2kOpenBookQA高级推理基准;Software Heritage;可汗学院数学关键词WildChat-1MNemotron-Personas-USA gpt-oss-120bMixtral-8x22B-Instruct-v0.1Qwen3-235B-A22B-Instruct-2507Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-235B-A22B-Instruct-2507 生成的合成长上下文数据集 文本 未公开 COREPG-19DOAB CC BY 与 CC BY-SA 子集NDLTD Qwen3-235B-A22B-Instruct-2507
基于 gpt-oss-120b、DeepSeek-R1-0528、Qwen3-32B 和 Qwen3-235B-A22B-Thinking-2507 生成的合成工具使用交互式智能体数据集 文本 未公开 NVIDIA 内部 gpt-oss-120bDeepSeek-R1-0528Qwen3-32B;以及 Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-235B-A22B-Thinking-2507 生成的合成 STEM 数据集 文本 未公开 ICHO-IPH0Physics Big;Scale HLE;OpenMathReasoningOpenCodeReasoning Qwen3-235B-A22B-Thinking-2507
基于 Qwen3-Coder-480B-A35B-Instruct 和 Kimi-K2-Thinking 生成的合成 DocFinQA 和 SWE-smith 数据集 文本 未公开 DocFinQASWE-smith Qwen3-Coder-480B-A35B-InstructKimi-K2-Thinking
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成数学数据集 文本 未公开 - gpt-oss-120bQwen2.5-32B-Instruct
基于 gpt-oss-120b 生成的合成 Essential-Web 数据集 文本 未公开 Essential-Web gpt-oss-120b
基于 gpt-oss-120b 生成的合成 Scale HLE 数据集 文本 未公开 Scale HLE gpt-oss-120b
基于 gpt-oss-120b 生成的合成 CDQuestions 数据集 文本 未公开 CDQuestions gpt-oss-120b
基于 gpt-oss-120b 生成的合成 Stack Exchange 数据集 文本 未公开 Stack Exchange gpt-oss-120b
基于 gpt-oss-120b 和 Qwen2.5-32B-Instruct 生成的合成 GPQA 数据集 文本 未公开 Stack Exchange gpt-oss-120bQwen2.5-32B-Instruct
基于 gpt-oss-120b 生成的合成 Vedantu 数据集 文本 未公开 Vedantu gpt-oss-120b
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集 文本 未公开 SWE-GymR2E-Gym-Subset Qwen3-Coder-480B-A35B-Instruct
基于 Qwen3-Coder-480B-A35B-Instruct 生成的合成 SWE-Gym 数据集 文本 未公开 SWE-Gym Qwen3-Coder-480B-A35B-Instruct
基于 DeepSeek-R1-0528 生成的合成 SWE-Gym 和 R2E-Gym-Subset 数据集 文本 未公开 SWE-GymR2E-Gym-Subset DeepSeek-R1-0528
来自 gpt-oss-120b、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成 HelpSteer、LMSYS-Chat-1M 和 Nemotron-Personas-USA 文本 未公开 HelpSteer2; HelpSteer3; LMSYS-Chat-1M; Nemotron-Personas-USA gpt-oss-120b; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Instruct-2507 和 Qwen3-235B-A22B-Thinking-2507 的合成结构化输出 文本 未公开 - Qwen3-30B-A3B-Instruct-2507; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成搜索 STEM 多项选择题 文本 未公开 - Qwen3-235B-A22B; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成搜索 STEM 开放式问题 文本 未公开 - DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成 OpenSTEM 文本 未公开 - Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 Qwen2.5-32B-Instruct 和 DeepSeek-R1-0528 的合成多项选择题 文本 未公开 - Qwen2.5-32B-Instruct; DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 MCQ10 文本 未公开 - DeepSeek-R1-0528
来自 Qwen3-235B-A22B、DeepSeek-R1-0528 和 Qwen3-235B-A22B-Instruct-2507 的合成 MCQ4 文本 未公开 - Qwen3-235B-A22B; DeepSeek-R1-0528; Qwen3-235B-A22B-Instruct-2507
来自 gpt-oss-120b 和 Qwen2.5-32B-Instruct 的合成 OpenMathReasoning 文本 未公开 OpenMathReasoning gpt-oss-120b; Qwen2.5-32B-Instruct
来自 DeepSeek-R1-0528 的合成离线搜索 MCQA HLE 文本 未公开 - DeepSeek-R1-0528
来自 Qwen3-235B-A22B 和 DeepSeek-R1-0528 的合成离线搜索 MCQA GPQA 文本 未公开 - Qwen3-235B-A22B; DeepSeek-R1-0528
来自 QwQ-32B、Qwen3-30B-A3B、Qwen3-235B-A22B、Qwen3-235B-A22B-Instruct-2507、Mistral-Small-3.1-24B-Instruct-2503、Mistral-Small-3.2-24B-Instruct-2506、MiniMax-M1-80k、MiniMax-M1-40k、Kimi-K2-Instruct、DeepSeek-V3-0324、DeepSeek-R1-0528 的合成人类偏好 文本 未公开 - QwQ-32B; Qwen3-30B-A3B; Qwen3-235B-A22B; Qwen3-235B-A22B-Instruct-2507; Mistral-Small-3.1-24B-Instruct-2503; Mistral-Small-3.2-24B-Instruct-2506; MiniMax-M1-80k; MiniMax-M1-40k; Kimi-K2-Instruct; DeepSeek-V3-0324; DeepSeek-R1-0528
来自 DeepSeek-R1、gemma-2-2b-it、gemma-3-27b-it、gpt-oss-20b、gpt-oss-120b、Mistral-7B-Instruct-v0.3、Mixtral-8x22B-Instruct-v0.1、Nemotron-4-340B-Instruct、NVIDIA-Nemotron-Nano-9B-v2、Phi-4-mini-instruct、Phi-3-small-8k-instruct、Phi-3-medium-4k-instruct、Qwen3-235B-A22B、QwQ-32B 的合成 WildChat-1M 和 arena-human-preference-140k 文本 未公开 WildChat-1M; arena-human-preference-140k DeepSeek-R1; gemma-2-2b-it; gemma-3-27b-it; gpt-oss-20b; gpt-oss-120b; Mistral-7B-Instruct-v0.3; Mixtral-8x22B-Instruct-v0.1; Nemotron-4-340B-Instruct; NVIDIA-Nemotron-Nano-9B-v2; Phi-4-mini-instruct; Phi-3-small-8k-instruct; Phi-3-medium-4k-instruct; Qwen3-235B-A22B; QwQ-32B
来自 DeepSeek-R1-0528、gpt-oss-120b、DeepSeek-R1-Distill-Qwen-7B 和 Mixtral-8x7B-v0.1 的合成安全性数据 文本 未公开 Nemotron Content Safety Dataset V2; Gretel Synthetic Safety Alignment Dataset; RedTeam-2K; Malicious Tasks; DeepSeek-R1-0528; gpt-oss-120b; DeepSeek-R1-Distill-Qwen-7B; Qwen3-30B-A3B-Thinking-2507; Qwen3-235B-A22B-Instruct-2507; Mixtral-8x7B-v0.1
来自 Qwen3-32B 的合成代码 文本 未公开 English Common Crawl; English Common Crawl 1.1 Qwen3-32B
来自 DeepSeek-R1 的合成 OpenCodeReasoning 文本 未公开 OpenCodeReasoning DeepSeek-R1
来自 DeepSeek-R1-0528 的合成 LIMO 文本 未公开 LIMO DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 SCP 文本 未公开 SCP-116K DeepSeek-R1-0528
来自 DeepSeek-R1-0528 的合成 Stack Exchange 文本 未公开 Stack Exchange DeepSeek-R1-0528
来自 Qwen3-30B-A3B 的合成 Common Crawl 文本 未公开 Common Crawl Qwen3-30B-A3B
来自 Qwen3-30B-A3B 的合成 Wikipedia 文本 未公开 Wikimedia Qwen3-30B-A3B
来自 Qwen3-30B-A3B 和 Qwen3-235B-A22B-Thinking-2507 的合成 Essential-Web 文本 未公开 Essential-Web Qwen3-30B-A3B; Qwen3-235B-A22B-Thinking-2507
来自 Qwen3-30B-A3B、Qwen3-235B-A22B、phi-4 的合成教科书数学 文本 未公开 Common Crawl; FineMath Qwen3-30B-A3B; Qwen3-235B-A22B; phi-4
来自 DeepSeek-R1 和 DeepSeek-R1-0528 的合成数学与代码 文本 未公开 Magicoder-Evol-Instruct-110K; opc-sft-stage2; TACO; OpenCodeReasoning; OpenMathReasoning; NuminaMath CoT DeepSeek-R1; DeepSeek-R1-0528
来自 gpt-oss-120b 和 Qwen3-8B 的合成 Nemotron-Personas-USA 文本 未公开 Nemotron-Personas-USA gpt-oss-120b; Qwen3-8B

训练数据集

数据集 Nemotron Nano 2 的标记数 Nemotron 3 Nano 的标记数
English Common Crawl 3,360,110,334,818 3,456,523,212,210
English Synthetic CC 1,949,464,641,123 4,340,740,677,920
Crawl++ 360,389,153,262 360,389,153,262
Math 124,606,230,663 154,217,502,165
Synthetic Math 73,007,767,155 73,007,767,155
Code 747,409,228,724 1,043,856,922,136
Synthetic Code 175,067,553,293 453,117,917,176
Common Crawl Code 0 263,072,374,097
English Wiki 17,349,266,926 17,349,266,926
Synthetic Wiki 0 7,850,648,552
Books 0 0
Papers 191,586,493,365 191,586,493,365
PDF-to-text 141,096,578,533 141,096,578,533
Code SFT 60,025,726,817 102,863,752,325
STEM SFT 272,680,426,295 359,826,214,274
General SFT 6,057,478,645 6,057,478,645
Tool-Calling SFT 0 26,244,716,867
Multilingual 2,172,261,909,350 1,743,892,490,859
Synthetic multilingual 997,710,364,950 595,140,661,135
Total 10,648,823,153,919 13,336,833,827,602

我们使用了大量的合成数据。在10.6万亿标记中,有3,534,013,958,278个标记是通过合成生成的。

我们从以下三个Common Crawl快照中提取了15种语言的数据:CC-MAIN-2024-51、CC-MAIN-2025-08、CC-MAIN-2025-18。这15种语言包括阿拉伯语、中文、丹麦语、荷兰语、法语、德语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和泰语。由于我们没有可靠的基于多语言模型的质量分类器,因此我们仅应用了启发式过滤——类似于我们在Nemotron-CC流程中对质量较低的英语数据所做的处理,但针对某些效果不佳的语言选择性地移除了部分过滤器。去重操作与Nemotron-CC的方式相同。此外,我们还将Wikipedia和FineWeb-2(Penedo et al., 2025)的数据用于这15种语言以及另外4种语言:捷克语、芬兰语、希伯来语和印地语。

语言 总标记数
Arabic 118,056,362,726
Danish 117,747,321,618
German 146,613,691,781
Spanish 469,156,575,409
French 139,982,002,289
Italian 298,858,370,174
Japanese 682,755,693,336
Korean 127,099,747,538
Dutch 89,041,592,681
Polish 105,356,493,147
Portuguese 243,249,275,089
Russian 185,314,014,057
Swedish 74,954,953,299
Thai 160,778,944,467
Chinese 211,007,236,689

我们共收集了43种不同语言的922,476,782,017个代码标记。

语言 标记数
Assembly 750,628,764
C 42,657,300,868
C# 56,153,329,307
C++ 67,773,701,658
CommonLisp 263,234,672
CSS 38,848,760,035
Cuda 400,222,993
Dart 3,816,960,470
Dockerfile 474,958,084
Fortran 1,105,049,387
Go 8,332,419,480
Haskell 1,294,613,669
HTML 69,082,117,487
Java 131,440,465,822
JavaScript 75,573,420,861
JSON 15,366,881,241
Julia 621,046,949
JupyterNotebook 2,241,893,197
Lua 4,146,420,802
Makefile 12,640,010,879
Markdown 64,796,743,311
Mathematica 320,504,225
OmniversePython 26,946,093
Pascal 1,625,013,876
Perl 1,575,314,434
PHP 61,575,339,005
Python 126,916,727,384
R 19,811,381,935
reStructuredText 1,779,876,391
Ruby 6,446,962,615
Rust 4,438,640,533
Scala 3,343,959,154
Shell 18,758,779,250
SQL 23,205,633,085
Swift 5,976,714,881
SystemVerilog 233,056,185
TeX 7,347,157,527
TypeScript 15,657,838,582
Verilog 811,884,369
VHDL 648,401,444
VisualBasic.NET 1,005,680,881
XML 12,616,779,741
YAML 10,574,010,491

训练后语言分布

在我们的训练后方案中,除英语外,我们重点关注了5种主要语言:西班牙语、法语、日语、意大利语和德语。
这些语言以多语言推理和翻译任务的形式呈现。

下表展示了我们针对6种语言和5个翻译语言对的样本分布情况。

语言 规模
English 16.2 M
Italian 0.252M
German 0.252M
Spanish 0.252M
French 0.252M
Japanese 0.252M
English <-> Italian 108k
English <-> German 108k
English <-> Spanish 108k
English <-> French 108k
English <-> Japanese 108k

评估数据集

  • 数据集的数据收集方法:混合式:人工、合成
  • 数据集的标注方法:混合式:自动化、人工、合成

推理

  • 引擎:HF、vLLM、TRT-LLM、SGLang、Llama.cpp
  • 测试硬件:NVIDIA A100 80GB、H100 80GB、B200 192GB、RTX PRO 6000 96GB、Jetson Thor、DGX Spark

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的可信 AI 服务条款下载或使用时,开发人员应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对意外的产品误用。

我们建议不要规避模型中包含的任何安全防护措施,除非针对您的用例有实质上类似的防护措施。更多详情:安全性可解释性子卡片。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的偏见隐私子卡片。

请在此处报告安全漏洞或 NVIDIA AI 相关问题

引用格式


@misc{nvidia_nemotron_nano_v3_2025,
  title  = {{Nemotron 3 Nano}: Open, Efficient Mixture-of-Experts Hybrid {Mamba}-{Transformer} Model for {Agentic} Reasoning},
  author = {{NVIDIA}},
  year   = {2025},
  url    = {https://arxiv.org/abs/2512.20848},
  note   = {Technical report}
}