NVIDIA-Nemotron-Nano-12B-v2-VL-FP8:FP8量化视觉语言模型,支持多语言图文交互与长文本推理

基于优化Transformer架构的自回归视觉语言模型,支持图像总结、OCR、交互式图文问答及文本链推理,适配多语言,在H100 GPU上实现高效部署。【此简介由AI生成】

分支1Tags0
AAmala Sanjay DeshmukhDisable BOS token
7394488b创建于 2025年11月13日16次提交
文件最后提交记录最后更新时间
track large tokenizer file 6 个月前
Add citation6 个月前
Upload 4 files6 个月前
Disable BOS token 6 个月前
Update config.json6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
Upload 4 files6 个月前
add files 6 个月前
Update hf_quant_config.json6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
add files 6 个月前
Upload 4 files6 个月前
add files 6 个月前
add files 6 个月前
Upload 4 files6 个月前
add files 6 个月前
add files 6 个月前
Disable BOS token 6 个月前
add files 6 个月前

license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/ pipeline_tag: image-text-to-text library_name: transformers tags:

  • nvidia
  • VLM
  • FP8

NVIDIA-Nemotron-Nano-VL-12B-V2-FP8

模型概述

描述

NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA Nemotron Nano VL V2 模型的量化版本,这是一种自回归视觉语言模型,采用优化的 Transformer 架构。欲了解更多信息,请查看此处。NVIDIA Nemotron Nano VL FP4 QAD 模型使用 TensorRT Model Optimizer 进行量化。

该模型在训练的所有三个阶段均使用商业图像进行训练,并支持单图像推理。

许可/使用条款

管辖条款:

您对本模型的使用受 NVIDIA Open License Agreement 管辖。

补充信息:

骨干大型语言模型:NVIDIA-Nemotron-Nano-12B-v2。

部署地域:

全球

用例:

客户:AI 铸造厂企业客户

用例:图像摘要、图文分析、光学字符识别、图像交互式问答、文本思维链推理

发布日期:

模型架构:

网络类型: Transformer

网络架构:

视觉编码器:C-RADIOv2-H

语言编码器:NVIDIA-Nemotron-Nano-12B-v2

输入

输入类型:图像、文本

  • 输入图像
  • 支持语言:德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文、英语

输入格式:图像(红、绿、蓝(RGB))和文本(字符串)

输入参数:图像(二维)、文本(一维)

与输入相关的其他属性:

  • 上下文长度最长可达 128K
  • 最大分辨率:由 12 个分块的布局约束决定,每个分块为 512 × 512 像素。支持以下宽高比:
    • 4 × 3 布局:最大 2048 × 1536 像素
    • 3 × 4 布局:最大 1536 × 2048 像素
    • 2 × 6 布局:最大 1024 × 3072 像素
    • 6 × 2 布局:最大 3072 × 1024 像素
    • 允许其他配置,前提是总分块数 ≤ 12
  • 通道数:3 通道(RGB)
  • Alpha 通道:不支持(无透明度)

输出

输出类型:文本

输出格式:字符串

输出参数:一维(1D):最长128K的序列

我们的AI模型经过设计和/或优化,可在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

运行时引擎:vLLM
支持的硬件微架构兼容性:H100 SXM 80GB
支持的操作系统:Linux

模型版本:

Nemotron-Nano-VL-12B-V2-FP8

快速开始

安装依赖项

pip install causal_conv1d "transformers>4.53,<4.54" torch timm "mamba-ssm==2.2.5" accelerate open_clip_torch numpy pillow

使用方法

若要通过 vLLM 部署此检查点,您可以启动 vllm/vllm-openai:nightly 容器并运行以下示例命令:

python3 -m vllm.entrypoints.openai.api_server --model nvidia/Nemotron-Nano-VL-12B-V2-FP8 --trust-remote-code --quantization modelopt

训练、测试与评估数据集:

训练数据集:

数据模态
** 总样本量:39,486,703 样本
** 数据集总数:270 个

** 纯文本数据集:33 个
** 文本-图像数据集:176 个
** 视频-文本数据集:61 个
** 总大小:27.7 TB

** 数据模态:文本、图像、视频
** 数据集收集方法:混合:自动化、人工、合成
** 数据集标注方法:混合:自动化、人工、合成

** 数据集划分:训练集 [100%]、测试集 [0%]、验证集 [0%]
** 训练数据收集时间:2023-2025 年
** 测试数据收集时间:不适用
** 验证数据收集时间:不适用

训练后数据集由内部和公开数据集混合组成,旨在针对各种任务训练视觉语言模型。其包含:

  • 公共数据集,来源于公开可用的图像和标注,支持分类、图像描述生成、视觉问答、对话建模、文档分析以及文本/图像推理等任务。
  • 内部文本和图像数据集,由公开商业图像和内部标签构建而成,适用于上述所列相同任务。
  • 合成图像数据集,通过编程方式生成,用于特定任务如表格数据理解和光学字符识别(OCR),支持英语、中文及其他语言。
  • 视频数据集,来源于公开可用的视频资源,支持视频问答和推理任务,其标注为公开可用或内部生成。
  • 用于安全对齐、函数调用和特定领域任务(如科学图表、金融问答)的专业数据集。
  • NVIDIA 来源的用于文本推理的合成数据集。
  • 用于安全对齐或发票视觉问答的私有数据集。
  • 爬取或抓取的图像描述生成、视觉问答和视频数据集。
  • 部分数据集通过 Qwen2.5-72B-Instruct 标注进行了改进

在我们总训练语料的约 30% 以及上述多个领域中,我们使用了商业许可模型来执行以下操作:

  • 语言翻译
  • 文本、图像和视频数据集标注的重新标注
  • 合成数据生成
  • 生成思维链(CoT)轨迹

多个数据集的额外处理包括基于规则的问答生成(例如使用模板)、将简短答案扩展为较长响应以及适当的重新格式化。更多详情可参见 此处

** 基于图像的数据集均经过已知儿童性虐待材料(CSAM)扫描,确保训练中不包含此类内容。

公开数据集

类型 数据类型 样本总数 总大小 (GB)
函数调用 文本 8,000 0.02
图像描述 图像、文本 1,422,102 1,051.04
图像推理 图像、文本 1,888,217 286.95
光学字符识别 图像、文本 9,830,570 5,317.60
指代表达式定位 图像、文本 14,694 2.39
安全性 图像、文本 34,187 9.21
安全性 文本 57,223 0.52
安全性 视频、文本 12,988 11.78
文本指令调优 文本 245,056 1.13
文本推理 文本 225,408 4.55
视觉问答 图像、文本 8,174,136 2,207.52
视觉问答 视频、文本 40,000 46.05
视频描述 视频、文本 3,289 6.31
视频推理 视频、文本 42,620 49.10
视频问答 视频、文本 1,371,923 17,641.79
视觉指令调优 图像、文本 1,173,877 167.79
总计 24,544,290 26,803.75

私有数据集

类型 模态 样本总数 总大小 (GB)
图像推理 图像、文本 17,729 15.41
文本推理 文本 445,958 9.01
总计 463,687 24.42

数据爬取与抓取

类型 模态 样本总数 总大小 (GB)
图像描述 图像、文本 39,870 10.24
视觉问答 图像、文本 40,348 3.94
视频问答 视频、文本 288,728 393.30
总计 368,946 407.48

用户来源数据(由提供方收集,含提示词)


自有合成数据

类型 数据类型 样本总数 总大小 (GB)
代码 文本 1,165,591 54.15
光学字符识别 图像、文本 216,332 83.53
文本推理 文本 12,727,857 295.80
总计 14,109,780 433.48

属性

  • 此外,用于训练和评估的数据集集合包含内部和公开数据集的混合,旨在支持各类任务的训练与评估。其中包括:
    • 利用公开商业图像和内部标签构建的内部数据集,支持对话建模和文档分析等任务。
    • 源自公开可用图像和注释的公开数据集,适用于图像描述和视觉问答等任务。
    • 针对表格数据理解等特定任务通过编程生成的合成数据集。
    • 用于安全性对齐、函数调用以及特定领域任务(如科学图表、金融问答)的专业数据集。

评估数据集:

以下外部基准用于评估模型:

数据集
AI2D Test
ChartQA Test
OCRBench
OCRBenchV2 English
DocVQA Val

各数据集的数据收集方法:

  • 混合:人工、自动化

各数据集的标注方法:

  • 混合:人工、自动化

属性(数量、数据集描述、传感器): 不适用

数据集许可: 不适用

评估基准:

基准 分数(FP8) 分数(BF16)
AI2D 87.6% 87.1%
OCRBenchV2 61.8% 62.0%
OCRBench 85.4% 85.6%
ChartQA 89.4% 89.7%
DocVQA val 94.3% 94.4%

推理:

引擎: vLLM
测试硬件:

  • 1x NVIDIA H100 SXM 80GB

伦理考量:

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品误用问题。有关此模型伦理考量的更多详细信息,请参见 Model Card++ 的可解释性偏见安全与安保隐私子卡。请通过此处报告安全漏洞或 NVIDIA AI 相关问题。

用户对模型的输入和输出负责。用户在部署前负责确保此模型的安全集成,包括实施防护措施以及其他安全机制。

这些模型生成的输出可能包含政治内容或其他潜在的误导性信息、内容安全与安全问题,或不受我们监督的不必要偏见。

引用说明:

@misc{nvidia2025nvidianemotronnanov2,
      title={NVIDIA Nemotron Nano V2 VL},
      author={NVIDIA},
      year={2025},
      eprint={2511.03929},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2511.03929},
}

项目介绍

基于优化Transformer架构的自回归视觉语言模型,支持图像总结、OCR、交互式图文问答及文本链推理,适配多语言,在H100 GPU上实现高效部署。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Python88.39%
Jinja11.61%