多模态理解模型量化
多模态理解模型,也称为视觉语言模型(Vision-Language Models, VLM),具备强大的功能。可以处理图像、视频和文本等多种数据类型,并能执行多种下游任务,如理解图像内容并生成相应的自然语言描述。
环境配置
- 请选用8.2.RC1及之后的配套CANN版本。
- msModelSlim安装步骤请参考安装指南。
- 不同的多模态理解模型依赖的transformers版本、第三方库有所差异,请务必参考各个多模态理解模型的量化说明进行配置。
已验证量化模型
| 模型 | 支持量化 | 权重链接 | 量化部署支持 | 量化推荐实践 |
|---|---|---|---|---|
| LLaVA | W8A8静态量化 | LLaVA-1.5-7b-hf | MindIE当前不支持 vLLM Ascend当前不支持 |
LLaVA 量化使用说明 |
| Qwen-VL | W8A8静态量化 | Qwen-VL | MindIE当前不支持 vLLM Ascend当前不支持 |
Qwen-VL 量化使用说明 |
| InternVL2 | W8A8静态量化 | InternVL2-8B InternVL2-40B |
MindIE当前不支持 vLLM Ascend当前不支持 |
InternVL2 量化使用说明 |
| Qwen2-VL | W8A8静态量化 | Qwen2-VL-7B-Instruct Qwen2-VL-72B-Instruct |
MindIE 2.1.RC1及之后版本支持 vLLM Ascend当前不支持 |
Qwen2-VL 量化使用说明 |
| Qwen2.5-VL | W8A8静态量化,W4A8动态量化【部署暂不支持】 | Qwen2.5-VL-7B-Instruct Qwen2.5-VL-72B-Instruct |
MindIE 2.2.RC1及之后版本支持 vLLM Ascend v0.10.2rc2及之后版本支持 |
Qwen2.5-VL 量化使用说明 |
| Qwen3-VL | W8A8SC量化 | Qwen3-VL-8B-Instruct |
MindIE 预计3.0.RC1版本支持 vLLM Ascend 当前不支持 |
Qwen3-VL量化使用说明 |
| Qwen3-VL-MoE | W8A8混合量化(MoE专家动态量化) | Qwen3-VL-30B-A3B Qwen3-VL-235B-A22B |
MindIE 待支持 vLLM Ascend 支持中 |
Qwen3-VL-MoE 量化使用说明 |
| GLM-4.1V | W8A8SC量化 | GLM-4.1V-9B-Thinking | MindIE 预计3.0.RC1版本支持 vLLM Ascend 当前不支持 |
GLM-4.1V 量化使用说明 |