Google开源Gemma 3系列1B指令微调模型,采用量化感知训练技术,在保持接近bfloat16性能的同时大幅降低内存需求,支持多语言与图像理解,适合资源受限环境部署。【此简介由AI生成】
base_model: google/gemma-3-1b-it license: gemma tags:
- gemma3
- gemma
- google pipeline_tag: text-generation library_name: transformers extra_gated_heading: Access Gemma on Hugging Face extra_gated_prompt: >- To access Gemma on Hugging Face, you’re required to review and agree to Google’s usage license. To do this, please ensure you’re logged in to Hugging Face and click below. Requests are processed immediately. extra_gated_button_content: Acknowledge license
Gemma 3 模型卡片
模型主页: Gemma
[!注意] 本仓库对应 Gemma 3 模型的 10 亿参数指令微调版本,采用量化感知训练(QAT)技术。
此仓库中的检查点为未量化版本,请确保使用您惯用的工具以 Q4_0 格式进行量化
得益于 QAT 技术,该模型能够在显著降低加载所需内存的同时,保持与
bfloat16版本相近的质量表现。
资源与技术文档:
使用条款: 条款
研发团队: Google DeepMind
模型信息
概要说明及输入输出的简要定义。
模型描述
Gemma 是谷歌推出的轻量级尖端开源模型系列,基于与创建 Gemini 模型相同的研究和技术构建。Gemma 3 系列为多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令微调变体均提供开放权重。Gemma 3 拥有 128K 的大规模上下文窗口,支持 140 多种语言的多语言处理,且提供比前代版本更丰富的规格选择。该系列模型适用于多种文本生成与图像理解任务,包括问答、摘要和逻辑推理。其相对较小的模型尺寸使得在资源受限的环境(如笔记本电脑、台式机或自有云基础设施)中部署成为可能,从而推动尖端 AI 模型的普惠化应用,助力创新生态的全面发展。
输入与输出
-
输入:
- 文本字符串(如待回答的问题、提示词或需总结的文档)
- 图像(标准化为 896 x 896 分辨率,每张图像编码为 256 个 token)
- 总输入上下文长度:4B/12B/27B 规格支持 128K tokens,1B 规格支持 32K tokens
-
输出:
- 根据输入生成的响应文本(如问题答案、图像内容分析或文档摘要)
- 总输出上下文长度为 8192 tokens
引用说明
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
模型训练所使用的数据及其处理方式。
训练数据集
这些模型基于包含多种来源的文本数据集进行训练。27B 模型使用了 14 万亿个 token 进行训练,12B 模型使用了 12 万亿个 token,4B 模型使用了 4 万亿个 token,1B 模型则使用了 2 万亿个 token。以下是关键组成部分:
- 网络文档:多样化的网络文本集合确保模型能够接触到广泛的语言风格、主题和词汇。训练数据集包含超过 140 种语言的内容。
- 代码:让模型接触代码有助于其学习编程语言的语法和模式,从而提升生成代码和理解代码相关问题的能力。
- 数学:数学文本的训练帮助模型学习逻辑推理、符号表示,并处理数学查询。
- 图像:广泛的图像数据使模型能够执行图像分析和视觉数据提取任务。
这些多样化数据源的结合对于训练一个能够处理多种任务和数据格式的强大多模态模型至关重要。
数据预处理
以下是应用于训练数据的关键数据清理和过滤方法:
- CSAM 过滤:在数据准备过程的多个阶段应用了严格的 CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
- 敏感数据过滤:作为确保 Gemma 预训练模型安全可靠的一部分,采用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
- 其他方法:基于内容质量和安全性的过滤,符合 我们的政策。
实现信息
关于模型内部细节的说明。
硬件
Gemma 使用 Tensor Processing Unit (TPU) 硬件(TPUv4p、TPUv5p 和 TPUv5e)进行训练。训练视觉语言模型(VLM)需要巨大的计算能力。TPU 专为机器学习中常见的矩阵运算设计,在该领域具有以下优势:
- 性能:TPU 专门设计用于处理训练 VLM 所涉及的大规模计算,相比 CPU 可显著加速训练过程。
- 内存:TPU 通常配备大量高带宽内存,能够在训练过程中处理大型模型和批量大小,从而提升模型质量。
- 可扩展性:TPU Pod(大型 TPU 集群)为处理日益复杂的大型基础模型提供了可扩展的解决方案。您可以将训练分布到多个 TPU 设备上,以实现更快速、更高效的处理。
- 成本效益:在许多场景下,相比基于 CPU 的基础设施,TPU 能够为训练大型模型提供更具成本效益的解决方案,尤其是在考虑到因训练速度加快而节省的时间和资源时。
- 这些优势与 Google 的可持续运营承诺保持一致。
软件
训练过程采用 JAX 和 ML Pathways 框架实现。
JAX 使研究人员能够充分利用新一代硬件(包括 TPU)的优势,以更快、更高效地训练大型模型。ML Pathways 是谷歌为构建能够跨多任务泛化的人工智能系统推出的最新成果,特别适用于包括此类大语言模型在内的基础模型。
如 Gemini 模型家族论文所述,JAX 与 ML Pathways 的结合运用体现了其优势:"Jax 和 Pathways 的‘单控制器’编程模型允许单个 Python 进程协调整个训练过程,极大简化了开发工作流程。"
评估
[!注意] 本节评估结果对应原始检查点,而非 QAT 检查点。
模型评估指标与结果。
基准测试结果
这些模型在大量不同数据集和指标上进行了评估,以全面覆盖文本生成的各个方面:
推理与事实性
| 基准测试 | 指标 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|---|
| HellaSwag | 10样本 | 62.3 | 77.2 | 84.2 | 85.6 |
| BoolQ | 0样本 | 63.2 | 72.3 | 78.8 | 82.4 |
| PIQA | 0样本 | 73.8 | 79.6 | 81.8 | 83.3 |
| SocialIQA | 0样本 | 48.9 | 51.9 | 53.4 | 54.9 |
| TriviaQA | 5样本 | 39.8 | 65.8 | 78.2 | 85.5 |
| Natural Questions | 5样本 | 9.48 | 20.0 | 31.4 | 36.1 |
| ARC-c | 25样本 | 38.4 | 56.2 | 68.9 | 70.6 |
| ARC-e | 0样本 | 73.0 | 82.4 | 88.3 | 89.0 |
| WinoGrande | 5样本 | 58.2 | 64.7 | 74.3 | 78.8 |
| BIG-Bench Hard | 少样本 | 28.4 | 50.9 | 72.6 | 77.7 |
| DROP | 1样本 | 42.4 | 60.1 | 72.2 | 77.2 |
STEM 与代码
| 基准测试 | 指标 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|
| MMLU | 5样本 | 59.6 | 74.5 | 78.6 |
| MMLU (Pro COT) | 5样本 | 29.2 | 45.3 | 52.2 |
| AGIEval | 3-5样本 | 42.1 | 57.4 | 66.2 |
| MATH | 4样本 | 24.2 | 43.3 | 50.0 |
| GSM8K | 8样本 | 38.4 | 71.0 | 82.6 |
| GPQA | 5样本 | 15.0 | 25.4 | 24.3 |
| MBPP | 3样本 | 46.0 | 60.4 | 65.6 |
| HumanEval | 0样本 | 36.0 | 45.7 | 48.8 |
多语言
| 基准测试 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|
| MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
| Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
| WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
| FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
| XQuAD (全部) | 43.9 | 68.0 | 74.5 | 76.8 |
| ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
| IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
多模态
| 基准测试 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|
| COCOcap | 102 | 111 | 116 |
| DocVQA (验证集) | 72.8 | 82.3 | 85.6 |
| InfoVQA (验证集) | 44.1 | 54.8 | 59.4 |
| MMMU (pt) | 39.2 | 50.3 | 56.1 |
| TextVQA (验证集) | 58.9 | 66.5 | 68.6 |
| RealWorldQA | 45.5 | 52.2 | 53.9 |
| ReMI | 27.3 | 38.5 | 44.8 |
| AI2D | 63.2 | 75.2 | 79.0 |
| ChartQA | 63.6 | 74.7 | 76.3 |
| VQAv2 | 63.9 | 71.2 | 72.9 |
| BLINK | 38.0 | 35.9 | 39.6 |
| OKVQA | 51.0 | 58.7 | 60.2 |
| TallyQA | 42.5 | 51.8 | 54.3 |
| SpatialSense VQA | 50.9 | 60.0 | 59.4 |
| CountBenchQA | 26.1 | 17.8 | 68.0 |
道德与安全
道德与安全评估方法及结果。
评估方法
我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由多个不同团队执行,每个团队设有不同的目标和人工评估指标。这些模型针对道德与安全相关的多个类别进行了评估,包括:
- 儿童安全:评估涵盖儿童安全政策(包括儿童性虐待和性剥削)的文本到文本及图像到文本提示。
- 内容安全:评估涵盖安全政策(包括骚扰、暴力与血腥、仇恨言论)的文本到文本及图像到文本提示。
- 表征性危害:评估涵盖安全政策(包括偏见、刻板印象及有害关联或错误表述)的文本到文本及图像到文本提示。
除开发阶段评估外,我们还开展"保障性评估"——这是为责任治理决策提供的独立内部评估。该评估与模型开发团队分开进行,旨在为发布决策提供依据。高层级发现会反馈给模型团队,但提示集会被保留以防止过拟合,并确保评估结果能为决策提供有效参考。保障性评估结果将作为发布评审的一部分,上报至我们的责任与安全委员会。
评估结果
在所有安全测试领域,相较于之前的Gemma模型,我们在儿童安全、内容安全和表征性危害等类别均观察到显著改进。所有测试均在未启用安全过滤器的情况下进行,以评估模型能力和行为。无论是文本到文本还是图像到文本任务,也无论模型规模大小,该模型的策略违规率均极低,并在无依据推断方面较之前Gemma模型的表现有显著提升。本次评估的局限性在于仅包含英文提示词。
使用范围与局限性
这些模型存在若干用户需知的使用限制。
适用场景
开放视觉语言模型(VLM)在各行业领域具有广泛的应用前景。以下潜在用途清单并非穷尽列举,旨在提供模型创建者在训练和开发过程中所考虑应用场景的背景信息。
- 内容创作与传播
- 文本生成:可用于创作诗歌、剧本、代码、营销文案、邮件草稿等创意文本形式
- 聊天机器人与对话式AI:为客户服务、虚拟助手或交互式应用提供对话接口支持
- 文本摘要:对文本语料、研究论文或报告生成精炼摘要
- 图像数据提取:从视觉数据中提取、解读信息并生成文本通讯所需的摘要
- 研究与教育
- 自然语言处理(NLP)与VLM研究:为研究者实验VLM与NLP技术、开发算法提供基础框架,推动领域进步
- 语言学习工具:支持交互式语言学习体验,辅助语法修正或写作练习
- 知识探索:通过生成摘要或回答特定主题问题,协助研究者探索大规模文本
局限性
- 训练数据
- 训练数据的质量与多样性显著影响模型能力。数据中的偏见或缺失可能导致模型响应存在局限
- 训练数据集的范围决定了模型能有效处理的学科领域
- 语境与任务复杂度
- 模型更擅长处理具有清晰提示和指令框架的任务。开放式或高度复杂的任务可能具有挑战性
- 模型性能受提供语境量的影响(在一定范围内,更长的语境通常能产生更好输出)
- 语言歧义与细微差别
- 自然语言本身具有复杂性。模型可能难以把握微妙语义、反讽或比喻性语言
- 事实准确性
- 模型基于训练数据集学习的信息生成响应,但其并非知识库。可能产生不正确或过时的事实陈述
- 常识推理
- 模型依赖语言统计规律。在某些情境下可能缺乏应用常识推理的能力
伦理考量与风险
视觉语言模型(VLM)的发展引发了若干伦理问题。在创建开放模型的过程中,我们审慎考虑了以下方面:
- 偏见与公平性
- 基于大规模真实世界文本和图像数据训练的 VLM 可能反映训练材料中嵌入的社会文化偏见。这些模型经过严格审查,本文档阐述了输入数据预处理方法并公布了后续评估结果。
- 错误信息与滥用风险
- VLM 可能被滥用于生成虚假、误导性或有害文本。
- 我们随模型提供了负责任使用指南,详见负责任生成式 AI 工具包。
- 透明度与问责机制
- 本模型卡片汇总了模型架构、能力边界、局限性及评估流程的详细信息。
- 通过负责任地开发开放模型,我们为AI生态中的开发者和研究人员提供了接触VLM技术的机会,以此推动创新共享。
已识别的风险及应对措施:
- 偏见延续风险:建议在模型训练、微调及其他应用场景中持续进行监测(采用评估指标和人工审核),并探索去偏见技术。
- 有害内容生成风险:必须建立内容安全机制与准则。建议开发者保持警惕,根据具体产品政策和应用场景实施适当的内容安全防护措施。
- 恶意用途滥用风险:技术限制措施与开发者及终端用户教育有助于降低VLM的恶意应用。我们提供了教育资源及用户举报滥用行为的渠道。Gemma模型的禁止用途详见Gemma禁止使用政策。
- 隐私侵犯风险:模型训练数据已经过滤,剔除了特定个人信息及其他敏感数据。建议开发者采用隐私保护技术并遵守隐私法规。
优势亮点
在发布之时,该系列模型提供了高性能的开源视觉-语言模型实现,其设计初衷旨在以负责任的人工智能开发理念为基础,相较于同等规模的模型具有显著优势。
根据本文档所述的基准评估指标,这些模型在性能表现上已证明优于其他规模相当的开源模型替代方案。