基于优化Transformer架构的自回归视觉语言模型,支持图像总结、OCR、交互式图文问答及文本链推理,适配多语言,在H100 GPU上实现高效部署。【此简介由AI生成】
license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ pipeline_tag: image-text-to-text library_name: transformers tags:
- nvidia
- VLM
- FP8
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8
模型概述
描述
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA Nemotron Nano VL V2 模型的量化版本,这是一种自回归视觉语言模型,采用优化的 Transformer 架构。欲了解更多信息,请查看此处。NVIDIA Nemotron Nano VL FP4 QAD 模型使用 TensorRT Model Optimizer 进行量化。
该模型在训练的所有三个阶段均使用商业图像进行训练,并支持单图像推理。
许可/使用条款
管辖条款:
您对本模型的使用受 NVIDIA Open License Agreement 管辖。
补充信息:
骨干大型语言模型:NVIDIA-Nemotron-Nano-12B-v2。
部署地域:
全球
用例:
客户:AI 铸造厂企业客户
用例:图像摘要、图文分析、光学字符识别、图像交互式问答、文本思维链推理
发布日期:
- Build.Nvidia.com [2025 年 10 月 28 日],通过 nvidia/NVIDIA-Nemotron-Nano-VL-12B-V2
- Hugging Face [2025 年 10 月 28 日],通过 nvidia/NVIDIA-Nemotron-Nano-VL-12B-V2-BF16
- Hugging Face [2025 年 10 月 28 日],通过 nvidia/NVIDIA-Nemotron-Nano-VL-12B-V2-FP8
- Hugging Face [2025 年 10 月 28 日],通过 nvidia/NVIDIA-Nemotron-Nano-VL-12B-V2-NVFP4
模型架构:
网络类型: Transformer
网络架构:
视觉编码器:C-RADIOv2-H
语言编码器:NVIDIA-Nemotron-Nano-12B-v2
输入
输入类型:图像、文本
- 输入图像
- 支持语言:德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文、英语
输入格式:图像(红、绿、蓝(RGB))和文本(字符串)
输入参数:图像(二维)、文本(一维)
与输入相关的其他属性:
- 上下文长度最长可达 128K
- 最大分辨率:由 12 个分块的布局约束决定,每个分块为 512 × 512 像素。支持以下宽高比:
- 4 × 3 布局:最大 2048 × 1536 像素
- 3 × 4 布局:最大 1536 × 2048 像素
- 2 × 6 布局:最大 1024 × 3072 像素
- 6 × 2 布局:最大 3072 × 1024 像素
- 允许其他配置,前提是总分块数 ≤ 12
- 通道数:3 通道(RGB)
- Alpha 通道:不支持(无透明度)
输出
输出类型:文本
输出格式:字符串
输出参数:一维(1D):最长128K的序列
我们的AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
软件集成
运行时引擎:vLLM
支持的硬件微架构兼容性:H100 SXM 80GB
支持的操作系统:Linux
模型版本:
Nemotron-Nano-VL-12B-V2-FP8
快速开始
安装依赖项
pip install causal_conv1d "transformers>4.53,<4.54" torch timm "mamba-ssm==2.2.5" accelerate open_clip_torch numpy pillow
使用方法
若要通过 vLLM 部署此检查点,您可以启动 vllm/vllm-openai:nightly 容器并运行以下示例命令:
python3 -m vllm.entrypoints.openai.api_server --model nvidia/Nemotron-Nano-VL-12B-V2-FP8 --trust-remote-code --quantization modelopt
训练、测试与评估数据集:
训练数据集:
数据模态
** 总样本量:39,486,703 样本
** 数据集总数:270 个
** 纯文本数据集:33 个
** 文本-图像数据集:176 个
** 视频-文本数据集:61 个
** 总大小:27.7 TB
** 数据模态:文本、图像、视频
** 数据集收集方法:混合:自动化、人工、合成
** 数据集标注方法:混合:自动化、人工、合成
** 数据集划分:训练集 [100%]、测试集 [0%]、验证集 [0%]
** 训练数据收集时间:2023-2025 年
** 测试数据收集时间:不适用
** 验证数据收集时间:不适用
训练后数据集由内部和公开数据集混合组成,旨在针对各种任务训练视觉语言模型。其包含:
- 公共数据集,来源于公开可用的图像和标注,支持分类、图像描述生成、视觉问答、对话建模、文档分析以及文本/图像推理等任务。
- 内部文本和图像数据集,由公开商业图像和内部标签构建而成,适用于上述所列相同任务。
- 合成图像数据集,通过编程方式生成,用于特定任务如表格数据理解和光学字符识别(OCR),支持英语、中文及其他语言。
- 视频数据集,来源于公开可用的视频资源,支持视频问答和推理任务,其标注为公开可用或内部生成。
- 用于安全对齐、函数调用和特定领域任务(如科学图表、金融问答)的专业数据集。
- NVIDIA 来源的用于文本推理的合成数据集。
- 用于安全对齐或发票视觉问答的私有数据集。
- 爬取或抓取的图像描述生成、视觉问答和视频数据集。
- 部分数据集通过 Qwen2.5-72B-Instruct 标注进行了改进
在我们总训练语料的约 30% 以及上述多个领域中,我们使用了商业许可模型来执行以下操作:
- 语言翻译
- 文本、图像和视频数据集标注的重新标注
- 合成数据生成
- 生成思维链(CoT)轨迹
多个数据集的额外处理包括基于规则的问答生成(例如使用模板)、将简短答案扩展为较长响应以及适当的重新格式化。更多详情可参见 此处。
** 基于图像的数据集均经过已知儿童性虐待材料(CSAM)扫描,确保训练中不包含此类内容。
公开数据集
| 类型 | 数据类型 | 样本总数 | 总大小 (GB) |
|---|---|---|---|
| 函数调用 | 文本 | 8,000 | 0.02 |
| 图像描述 | 图像、文本 | 1,422,102 | 1,051.04 |
| 图像推理 | 图像、文本 | 1,888,217 | 286.95 |
| 光学字符识别 | 图像、文本 | 9,830,570 | 5,317.60 |
| 指代表达式定位 | 图像、文本 | 14,694 | 2.39 |
| 安全性 | 图像、文本 | 34,187 | 9.21 |
| 安全性 | 文本 | 57,223 | 0.52 |
| 安全性 | 视频、文本 | 12,988 | 11.78 |
| 文本指令调优 | 文本 | 245,056 | 1.13 |
| 文本推理 | 文本 | 225,408 | 4.55 |
| 视觉问答 | 图像、文本 | 8,174,136 | 2,207.52 |
| 视觉问答 | 视频、文本 | 40,000 | 46.05 |
| 视频描述 | 视频、文本 | 3,289 | 6.31 |
| 视频推理 | 视频、文本 | 42,620 | 49.10 |
| 视频问答 | 视频、文本 | 1,371,923 | 17,641.79 |
| 视觉指令调优 | 图像、文本 | 1,173,877 | 167.79 |
| 总计 | 24,544,290 | 26,803.75 |
私有数据集
| 类型 | 模态 | 样本总数 | 总大小 (GB) |
|---|---|---|---|
| 图像推理 | 图像、文本 | 17,729 | 15.41 |
| 文本推理 | 文本 | 445,958 | 9.01 |
| 总计 | 463,687 | 24.42 |
数据爬取与抓取
| 类型 | 模态 | 样本总数 | 总大小 (GB) |
|---|---|---|---|
| 图像描述 | 图像、文本 | 39,870 | 10.24 |
| 视觉问答 | 图像、文本 | 40,348 | 3.94 |
| 视频问答 | 视频、文本 | 288,728 | 393.30 |
| 总计 | 368,946 | 407.48 |
用户来源数据(由提供方收集,含提示词)
自有合成数据
| 类型 | 数据类型 | 样本总数 | 总大小 (GB) |
|---|---|---|---|
| 代码 | 文本 | 1,165,591 | 54.15 |
| 光学字符识别 | 图像、文本 | 216,332 | 83.53 |
| 文本推理 | 文本 | 12,727,857 | 295.80 |
| 总计 | 14,109,780 | 433.48 |
属性
- 此外,用于训练和评估的数据集集合包含内部和公开数据集的混合,旨在支持各类任务的训练与评估。其中包括:
- 利用公开商业图像和内部标签构建的内部数据集,支持对话建模和文档分析等任务。
- 源自公开可用图像和注释的公开数据集,适用于图像描述和视觉问答等任务。
- 针对表格数据理解等特定任务通过编程生成的合成数据集。
- 用于安全性对齐、函数调用以及特定领域任务(如科学图表、金融问答)的专业数据集。
评估数据集:
以下外部基准用于评估模型:
| 数据集 |
|---|
| AI2D Test |
| ChartQA Test |
| OCRBench |
| OCRBenchV2 English |
| DocVQA Val |
各数据集的数据收集方法:
- 混合:人工、自动化
各数据集的标注方法:
- 混合:人工、自动化
属性(数量、数据集描述、传感器): 不适用
数据集许可: 不适用
评估基准:
| 基准 | 分数(FP8) | 分数(BF16) |
|---|---|---|
| AI2D | 87.6% | 87.1% |
| OCRBenchV2 | 61.8% | 62.0% |
| OCRBench | 85.4% | 85.6% |
| ChartQA | 89.4% | 89.7% |
| DocVQA val | 94.3% | 94.4% |
推理:
引擎: vLLM
测试硬件:
- 1x NVIDIA H100 SXM 80GB
伦理考量:
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品误用问题。有关此模型伦理考量的更多详细信息,请参见 Model Card++ 的可解释性、偏见、安全与安保和隐私子卡。请通过此处报告安全漏洞或 NVIDIA AI 相关问题。
用户对模型的输入和输出负责。用户在部署前负责确保此模型的安全集成,包括实施防护措施以及其他安全机制。
这些模型生成的输出可能包含政治内容或其他潜在的误导性信息、内容安全与安全问题,或不受我们监督的不必要偏见。
引用说明:
@misc{nvidia2025nvidianemotronnanov2,
title={NVIDIA Nemotron Nano V2 VL},
author={NVIDIA},
year={2025},
eprint={2511.03929},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2511.03929},
}