README.md

多模态理解模型量化

多模态理解模型,也称为视觉语言模型(Vision-Language Models, VLM),具备强大的功能。可以处理图像、视频和文本等多种数据类型,并能执行多种下游任务,如理解图像内容并生成相应的自然语言描述。

环境配置

  • 请选用8.2.RC1及之后的配套CANN版本。
  • msModelSlim安装步骤请参考安装指南
  • 不同的多模态理解模型依赖的transformers版本、第三方库有所差异,请务必参考各个多模态理解模型的量化说明进行配置。

已验证量化模型

模型 支持量化 权重链接 量化部署支持 量化推荐实践
LLaVA W8A8静态量化 LLaVA-1.5-7b-hf MindIE当前不支持
vLLM Ascend当前不支持
LLaVA 量化使用说明
Qwen-VL W8A8静态量化 Qwen-VL MindIE当前不支持
vLLM Ascend当前不支持
Qwen-VL 量化使用说明
InternVL2 W8A8静态量化 InternVL2-8B
InternVL2-40B
MindIE当前不支持
vLLM Ascend当前不支持
InternVL2 量化使用说明
Qwen2-VL W8A8静态量化 Qwen2-VL-7B-Instruct
Qwen2-VL-72B-Instruct
MindIE 2.1.RC1及之后版本支持
vLLM Ascend当前不支持
Qwen2-VL 量化使用说明
Qwen2.5-VL W8A8静态量化,W4A8动态量化【部署暂不支持】 Qwen2.5-VL-7B-Instruct
Qwen2.5-VL-72B-Instruct
MindIE 2.2.RC1及之后版本支持
vLLM Ascend v0.10.2rc2及之后版本支持
Qwen2.5-VL 量化使用说明
Qwen3-VL W8A8SC量化 Qwen3-VL-8B-Instruct
MindIE 预计3.0.RC1版本支持
vLLM Ascend 当前不支持
Qwen3-VL量化使用说明
Qwen3-VL-MoE W8A8混合量化(MoE专家动态量化) Qwen3-VL-30B-A3B
Qwen3-VL-235B-A22B
MindIE 待支持
vLLM Ascend 支持中
Qwen3-VL-MoE 量化使用说明
GLM-4.1V W8A8SC量化 GLM-4.1V-9B-Thinking MindIE 预计3.0.RC1版本支持
vLLM Ascend 当前不支持
GLM-4.1V 量化使用说明