基于SigLIP视觉模型和Gemma语言模型构建,可处理图像与文本输入并生成文本输出,支持图像 caption、视觉问答、目标检测等多任务,提供多精度格式供微调。【此简介由AI生成】
library_name: big_vision license: gemma pipeline_tag: image-text-to-text tags:
- paligemma
- jax extra_gated_heading: Access PaliGemma on Hugging Face extra_gated_prompt: To access PaliGemma on Hugging Face, you’re required to review and agree to Google’s usage license. To do this, please ensure you’re logged-in to Hugging Face and click below. Requests are processed immediately. extra_gated_button_content: Acknowledge license
PaliGemma 模型卡片
模型页面: PaliGemma
JAX/FLAX 格式的 PaliGemma 3B 权重,采用 224*224 输入图像和 128 个标记的输入/输出文本序列进行预训练。模型提供 float32、bfloat16 和 float16 三种精度格式以供微调使用。
资源与技术文档:
使用条款: 条款说明
作者: Google
模型信息
模型概要
描述
PaliGemma 是一款受 PaLI-3 启发、基于开放组件的轻量级多模态视觉-语言模型(VLM),其核心组件包含 SigLIP 视觉模型 和 Gemma 语言模型。该模型支持图像与文本的多模态输入,并生成文本输出,同时兼容多语言处理。其设计目标是在图像描述、短视频字幕生成、视觉问答、文本读取、目标检测与目标分割等广泛视觉-语言任务中实现顶尖的微调性能。
模型架构
PaliGemma 采用 Transformer 解码器 与 Vision Transformer 图像编码器 的复合架构,参数量总计达 30 亿。文本解码器初始化自 Gemma-2B,图像编码器初始化自 SigLIP-So400m/14。模型训练遵循 PaLI-3 的方案设计。
输入与输出
- 输入: 图像与文本字符串(如图像描述指令或提问语句)
- 输出: 根据输入生成的响应文本(如图像描述、问题答案、目标边界框坐标列表或分割编码序列)
模型数据
预训练数据集
PaliGemma 基于以下混合数据集进行预训练:
- WebLI: WebLI(网络语言图像)是从公共网络构建的大规模多语言图文数据集。通过使用多种 WebLI 数据子集,模型获得了视觉语义理解、目标定位、视觉场景文本理解、多语言能力等多样化技能。
- CC3M-35L: 从网页中精选的英文图像-替代文本对(Sharma 等人, 2018)。我们使用 Google Cloud Translation API 将其翻译为另外 34 种语言。
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M 的子集(Changpinyo 等人, 2022a),通过 Google Cloud Translation API 翻译为与 CC3M-35L 相同的 34 种附加语言。
- OpenImages: 基于 [OpenImages 数据集] 通过手工规则生成的检测与目标感知问答数据(Piergiovanni 等人, 2022)。
- WIT: 从维基百科收集的图像和文本(Srinivasan 等人, 2021)。 [OpenImages 数据集]: https://storage.googleapis.com/openimages/web/factsfigures_v7.html
数据责任过滤
为确保 PaliGemma 基于洁净数据训练,我们对 WebLI 数据应用了以下过滤措施:
- 色情图像过滤: 移除被判定为色情性质的图像。
- 文本安全过滤: 识别并过滤与不安全文本配对的图像。不安全文本包括涉及或关于儿童性虐待影像(CSAI)、色情、粗俗内容及其他冒犯性内容。
- 文本毒性过滤: 使用 Perspective API 进一步识别并过滤与侮辱性、淫秽、仇恨或其他毒性文本配对的图像。
- 文本个人信息过滤: 通过 Cloud Data Loss Prevention (DLP) API 过滤特定个人信息及其他敏感数据,以保护个人隐私。已移除社会保障号码等标识符及[其他敏感信息类型]。
- 其他方法: 根据我们的政策与实践,基于内容质量与安全性进行过滤。 [其他敏感信息类型]: https://cloud.google.com/sensitive-data-protection/docs/high-sensitivity-infotypes-reference?_gl=1*jg604m*_ga*ODk5MzA3ODQyLjE3MTAzMzQ3NTk.*_ga_WH2QY8WWF5*MTcxMDUxNTkxMS4yLjEuMTcxMDUxNjA2NC4wLjAuMA..&_ga=2.172110058.-899307842.1710334759
实现信息
硬件
PaliGemma 采用最新一代张量处理单元(TPUv5e)硬件进行训练。
软件
训练使用 JAX、Flax、TFDS 及 big_vision 实现。
JAX 使研究人员能够利用包括 TPU 在内的最新硬件,以更快速、更高效的方式训练大型模型。
TFDS 用于访问数据集,Flax 用于构建模型架构。PaliGemma 的微调代码和推理代码已在 big_vision GitHub 代码库中开源。
评估信息
基准测试结果
为验证 PaliGemma 在各类学术任务中的迁移能力,我们在每个任务上对预训练模型进行微调。此外,我们还使用混合任务组合训练了混合模型。我们报告了不同分辨率下的结果,以展示哪些任务能从更高分辨率中受益。重要的是,这些任务或数据集均未包含在预训练数据混合中,且其图像已明确从网络规模的预训练数据中移除。
单任务(针对单一任务微调)
| 基准测试 (训练集划分) |
指标 (划分) |
pt-224 | pt-448 | pt-896 |
|---|---|---|---|---|
| 图像描述 | ||||
|
COCO 描述 (训练集+剩余验证集) |
CIDEr(验证集) | 141.92 | 144.60 | |
|
NoCaps (COCO 描述迁移评估) |
CIDEr(验证集) | 121.72 | 123.58 | |
|
COCO-35L (训练集) |
CIDEr 开发集 (英文/平均-34/总体平均) |
139.2 115.8 116.4 |
141.2 118.0 118.6 |
|
|
XM3600 (COCO-35L 迁移评估) |
CIDEr 开发集 (英文/平均-34/总体平均) |
78.1 41.3 42.4 |
80.0 41.9 42.9 |
|
|
TextCaps (训练集) |
CIDEr(验证集) | 127.48 | 153.94 | |
|
SciCap (首句描述,无子图) (训练集+验证集) |
CIDEr/BLEU-4 (测试集) |
162.25 0.192 |
181.49 0.211 |
|
|
Screen2words (训练集+开发集) |
CIDEr(测试集) | 117.57 | 119.59 | |
|
Widget Captioning (训练集+开发集) |
CIDEr(测试集) | 136.07 | 148.36 | |
| 问答任务 | ||||
|
VQAv2 (训练集+验证集) |
准确率 (测试服务器 - 标准) |
83.19 | 85.64 | |
|
MMVP (VQAv2 迁移评估) |
配对准确率 | 47.33 | 45.33 | |
|
POPE (VQAv2 迁移评估) |
准确率 (随机/常见/ 对抗性) |
87.80 85.87 84.27 |
88.23 86.77 85.90 |
|
|
OKVQA (训练集) |
准确率(验证集) | 63.54 | 63.15 | |
|
A-OKVQA(多项选择) (训练集+验证集) |
准确率 (测试服务器) |
76.37 | 76.90 | |
|
A-OKVQA(直接回答) (训练集+验证集) |
准确率 (测试服务器) |
61.85 | 63.22 | |
|
GQA (平衡训练集+ 平衡验证集) |
准确率 (平衡测试开发集) |
65.61 | 67.03 | |
|
xGQA (GQA 迁移评估) |
平均准确率 (孟加拉语、德语、英语、印尼语、 韩语、葡萄牙语、俄语、中文) |
58.37 | 59.07 | |
|
NLVR2 (训练集+开发集) |
准确率(测试集) | 90.02 | 88.93 | |
|
MaRVL (NLVR2 迁移评估) |
平均准确率 (测试集) (印尼语、斯瓦希里语、泰米尔语、土耳其语、中文) |
80.57 | 76.78 | |
|
AI2D (训练集) |
准确率(测试集) | 72.12 | 73.28 | |
|
ScienceQA (图像子集,无思维链) (训练集+验证集) |
准确率(测试集) | 95.39 | 95.93 | |
|
RSVQA-LR(非数值问题) (训练集+验证集) |
平均准确率 (测试集) |
92.65 | 93.11 | |
|
RSVQA-HR(非数值问题) (训练集+验证集) |
平均准确率 (测试集/测试集2) |
92.61 90.58 |
92.79 90.54 |
|
|
ChartQA (人工+增强)×(训练集+验证集) |
平均宽松 准确率 (人工测试集/ 增强测试集) |
57.08 | 71.36 | |
|
VizWiz VQA (训练集+验证集) |
准确率 (测试服务器 - 标准) |
73.7 | 75.52 | |
|
TallyQA (训练集) |
准确率 (简单测试集/ 复杂测试集) |
81.72 69.56 |
84.86 72.27 |
|
|
OCR-VQA (训练集+验证集) |
准确率(测试集) | 72.32 | 74.61 | 74.93 |
|
TextVQA (训练集+验证集) |
准确率 (测试服务器 - 标准) |
55.47 | 73.15 | 76.48 |
|
DocVQA (训练集+验证集) |
ANLS(测试服务器) | 43.74 | 78.02 | 84.77 |
|
Infographic VQA (训练集+验证集) |
ANLS(测试服务器) | 28.46 | 40.47 | 47.75 |
|
SceneText VQA (训练集+验证集) |
ANLS(测试服务器) | 63.29 | 81.82 | 84.40 |
| 分割任务 | ||||
|
RefCOCO (合并 refcoco、refcoco+、 refcocog,排除验证 和测试图像) |
MIoU (验证集) refcoco/refcoco+/ refcocog |
73.40 68.32 67.65 |
75.57 69.76 70.17 |
76.94 72.18 72.22 |
| 视频任务(描述/问答) | ||||
| MSR-VTT(描述生成) | CIDEr(测试集) | 70.54 | ||
| MSR-VTT(问答) | 准确率(测试集) | 50.09 | ||
| ActivityNet(描述生成) | CIDEr(测试集) | 34.62 | ||
| ActivityNet(问答) | 准确率(测试集) | 50.78 | ||
| VATEX(描述生成) | CIDEr(测试集) | 79.73 | ||
| MSVD(问答) | 准确率(测试集) | 60.22 |
| 基准测试 | 指标(划分) | mix-224 | mix-448 |
|---|---|---|---|
| MMVP | 配对准确率 | 46.00 | 45.33 |
| POPE | 准确率 (随机/常见/对抗性) |
88.00 86.63 85.67 |
89.37 88.40 87.47 |
评估方法
我们的评估方法包括结构化评估和相关内容策略的内部红队测试。红队测试由多个不同团队执行,每个团队设有不同的目标和人工评估指标。这些模型针对与伦理安全相关的多个类别进行评估,包括:
- 基于儿童安全、内容安全和表征性危害提示的人工评估。具体评估方法详见 Gemma 模型卡,评估设置包含图像描述生成和视觉问答任务。
- 图像到文本基准评估:针对相关学术数据集(如 FairFace 数据集 [Karkkainen 等人, 2021])进行基准测试。
评估结果
- 在儿童安全、内容安全和表征性危害等类别的伦理安全评估中,人工评估结果均符合 内部政策 设定的可接受阈值。
- 除严格的内部评估外,我们还使用 Perspective API(阈值为 0.8)来测量从 FairFace 数据集获取图像生成描述中的毒性、污秽语言及其他潜在问题。我们报告了在不同感知性别、种族和年龄属性子组中观察到的各项指标最大值和中位数。
| 指标 | 感知 性别 |
种族 | 年龄组 | |||
|---|---|---|---|---|---|---|
| 最大值 | 中位数 | 最大值 | 中位数 | 最大值 | 中位数 | |
| 毒性 | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
| 身份攻击 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
| 侮辱 | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
| 威胁 | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
| 污秽语言 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
预期用途
开源视觉语言模型(VLM)在各行业和领域具有广泛的应用前景。以下潜在用途列表并非详尽无遗,其目的在于提供背景信息,说明模型创建者在训练和开发过程中考虑到的可能应用场景。
特定视觉语言任务的微调:
- 预训练模型可针对多种视觉语言任务进行微调,例如:图像描述、短视频字幕生成、视觉问答、文本阅读、目标检测与目标分割。
- 预训练模型可针对特定领域微调,如遥感问答、视障人士视觉问题解答、科学问答、UI元素功能描述。
- 预训练模型可适配非文本输出任务,例如边界框标注或分割掩码生成。
视觉语言研究:
- 预训练模型与微调模型可作为研究基础,助力学者探索VLM技术、开发算法,并推动该领域的发展进步。
伦理考量与风险
视觉语言模型(VLM)的发展引发了多项伦理问题。在创建开源模型时,我们审慎考虑了以下方面:
- 偏见与公平性
- 基于大规模真实世界图文数据训练的VLM可能反映训练材料中嵌入的社会文化偏见。这些模型经过严格审查,本文档阐述了输入数据预处理方法并报告了后续评估结果。
- 错误信息与滥用
- VLM可能被滥用于生成虚假、误导性或有害文本。
- 我们提供了负责任使用指南,详见负责任生成式AI工具包。
- 透明度与问责制
- 本模型卡片汇总了模型架构、能力、局限性及评估流程的详细信息。
- 通过负责任开发的开源模型,我们有机会向AI生态圈的开发者和研究者共享VLM技术创新。
已识别的风险与缓解措施:
- 偏见延续风险:鼓励在模型训练、微调及其他应用场景中持续监控(使用评估指标、人工审核)并探索去偏见技术。
- 有害内容生成风险:内容安全机制与指南至关重要。建议开发者保持谨慎,根据具体产品政策和应用场景实施适当的内容安全防护措施。
- 恶意用途滥用风险:技术限制与开发者及终端用户教育有助于减轻大语言模型的恶意应用。我们提供了教育资源及用户举报滥用行为的机制,Gemma模型的禁止用途详见Gemma禁止使用政策。
- 隐私侵犯风险:模型训练数据经过过滤以去除特定个人信息和敏感数据。鼓励开发者采用隐私保护技术并遵守隐私法规。
局限性
- 基础 Gemma 模型的大部分局限性仍然存在:
- 视觉语言模型(VLM)更擅长处理可通过清晰提示和指令框定的任务。开放式或高度复杂的任务可能具有挑战性。
- 自然语言本身具有复杂性。VLM 可能难以把握细微的差异、讽刺或比喻性语言。
- VLM 根据其训练数据集学习到的信息生成响应,但它们不是知识库。可能会生成不正确或过时的事实陈述。
- VLM 依赖于语言和图像中的统计模式。在某些情况下可能缺乏应用常识推理的能力。
- PaliGemma 的设计初衷首先是作为通用预训练模型,用于迁移到特定任务。因此,其“开箱即用”或“零样本”性能可能落后于专门为此设计的模型。
- PaliGemma 不是多轮对话机器人。它设计用于单轮图像和文本输入。
引用
@article{beyer2024paligemma,
title={{PaliGemma: A versatile 3B VLM for transfer}},
author={Lucas Beyer* and Andreas Steiner* and André Susano Pinto* and Alexander Kolesnikov* and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai*},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
论文详见此处。