ascend-robot【feature】适配DeepSeek-V4 w8a8量化

大模型支持矩阵

说明：

点击“模型类别”列中的链接，即可跳转到msModelSlim为您推荐的最佳实践页面，里面详细介绍了量化命令和配置说明。
√ 表示该量化策略已通过msModelSlim官方验证，功能完整、性能稳定，建议优先采用。
- 表示该量化策略暂未通过msModelSlim官方验证，用户可根据实际需求进行配置尝试，但量化效果和功能稳定性无法得到官方保证。
标记了“一键量化”的“模型名称-量化模式（w8a8s等）”组合可在安装后使用如下一键量化命令行执行模型量化。
因 Qwen 系列推出能力更强的新版本，Qwen1.5-14B/32B/72B 模型已超出维护周期，后续将对该系列老模型实施日落处理，其现网版本量化模式不再提供维护支持。

msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type ${MODEL_TYPE} --quant_type ${QUANT_TYPE} --trust_remote_code True

未标记“一键量化”的最佳实践请阅读对应模型类别的最佳实践页面并在 example 目录下对应模型类别的子目录中执行命令，如 DeepSeek、Qwen3。

量化模式命名规范

量化模式名称格式为 W{weight_bit}A{activation_bit}[C{cache_bit}][S]，含义如下：

{weight_bit}：权重量化位数（如 8、4、16）
{activation_bit}：激活值量化位数（如 8、16）
{cache_bit}（可选）：KV Cache 量化位数（如 8）
S（可选）：表示稀疏量化（Sparse）

大语言模型支持列表

!!! info "提示" 下表内容较多，若显示不全，您可以按住鼠标滚轮或使用底部滚动条左右拖动查看。

模型类别	模型名称	依赖库	w8a16¹	w8a8	w4a8	w4a16	w8a8c8²	w4a8c8²	w8a8s(稀疏量化)³	w16a16s(浮点稀疏量化)³	w4a4
DeepSeek系列	DeepSeek-V2-16B	-	√	√	-	-	-	-	-	-	-
	DeepSeek-V2-236B	-	√	√	-	-	-	-	-	-	-
	DeepSeek-Coder-33B	-	√	√	-	-	√	-	-	-	-
	DeepSeek-V3	transformers==4.48.2	-	√	-	-	-	-	-	-	-
	DeepSeek-V3.1	transformers==4.48.2	-	√	√	-	√	√(一键量化)	-	-	-
	DeepSeek-V3.2-Exp	transformers==4.48.2	-	√(一键量化)	√(一键量化)	-	-	-	-	-	-
	DeepSeek-V3.2	transformers==4.48.2	-	√(一键量化)	-	-	-	-	-	-	-
	DeepSeek-V4-Flash	transformers==4.48.2	-	√(一键量化)	-	-	-	-	-	-	-
	DeepSeek-R1	transformers==4.48.2	-	√	√	-	√	-	-	-	-
	DeepSeek-R1-0528	transformers==4.48.2	-	√	√(一键量化)	-	√	√(一键量化)	-	-	-
DeepSeek-R1-Distill系列	DeepSeek-R1-Distill-Llama-8B	-	-	√	-	-	-	-	√	-	-
	DeepSeek-R1-Distill-Llama-70B	-	-	√	-	-	-	-	-	-	-
	DeepSeek-R1-Distill-Qwen-1.5B	-	-	√	-	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-7B	-	-	√	-	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-14B	-	-	√	-	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-32B	-	-	√	-	-	-	-	√	-	-
Qwen3系列	Qwen3-8B	transformers==4.51.0	-	-	-	-	-	-	√(一键量化)	-	-
	Qwen3-14B	transformers==4.51.0	-	√(一键量化，仅MindIE支持)⁴	-	-	-	-	√(一键量化)	-	-
	Qwen3-32B	transformers==4.51.0	-	√(一键量化，仅MindIE支持)⁴	-	-	√(一键量化)	-	√(一键量化)	√(一键量化)	√
Qwen3-MOE系列	Qwen3-30B-A3B	transformers==4.51.0	-	√(一键量化)	√(一键量化)	-	-	-	-	-	-
	Qwen3-235B-A22B	transformers==4.51.0	-	√	√(一键量化)	-	-	-	-	-	-
	Qwen3-Coder-480B-A35B	transformers==4.51.0	-	-	√(一键量化)	-	-	-	-	-	-
Qwen3.5系列	Qwen3.5-397B-A17B	transformers==5.2.0	-	√(一键量化)	√(一键量化)	-	-	-	-	-	-
	Qwen3.5-122B-A10B	transformers==5.2.0	-	√(一键量化)	-	-	-	-	-	-	-
	Qwen3.5-35B-A3B	transformers==5.2.0	-	√(一键量化)	-	-	-	-	-	-	-
	Qwen3.5-27B	transformers==5.2.0	-	√(一键量化)	-	-	-	-	-	-	-
Qwen3-Next系列	Qwen3-Next-80B-A3B-Instruct	transformers>=4.57.0	-	√(一键量化，仅vLLM Ascend支持)	-	-	-	-	-	-	-
Qwen2.5系列	Qwen2.5-7B-Instruct	-	-	√(一键量化)	-	-	-	-	√	-	-
	Qwen2.5-14B-Instruct	-	-	√	-	-	-	-	√	-	-
	Qwen2.5-32B-Instruct	-	-	√(一键量化)	-	-	-	-	-	-	-
	Qwen2.5-72B-Instruct	-	-	-	-	√	√(一键量化)	-	-	-	-
	Qwen2.5-Coder-7B-Instruct	-	-	-	-	-	-	-	√(一键量化)	-	-
Qwen2系列	Qwen2-7B	-	-	√	-	-	-	-	√	-	-
Qwen2系列	Qwen2-72B	-	√	√	-	-	√	-	√	-	-
Qwen系列	Qwen-7B	-	-	√	-	-	-	-	-	-	-
	Qwen-14B	-	-	√	-	-	-	-	-	-	-
	Qwen-72B	-	√	-	-	-	-	-	-	-	-
	Qwen1.5-14B	-	-	√	-	-	-	-	√	-	-
	Qwen1.5-32B	-	-	√	-	-	-	-	-	-	-
	Qwen1.5-72B	-	√	-	-	-	-	-	-	-	-
	Qwen1.5-110B	-	√	-	-	-	-	-	-	-	-
QwQ系列	QwQ-32B	-	-	√(一键量化)	-	-	-	-	√(一键量化)	-	-
GLM5-MOE系列	GLM-5	transformers==5.2.0	-	√	√	-	-	-	-	-	-
GLM系列	GLM-4-9B	-	-	√	-	-	√	-	√	-	-
GLM4-MOE系列	GLM-4.7	transformers==4.57.3	-	√(一键量化，仅vLLM Ascend支持)	-	-	-	-	-	-	-


HunYuan系列	Hunyuan-A52B-Instruct	transformers>=4.48.2	-	√	-	-	-	-	-	-	-
InternLM系列	InternLM2-20B	-	√	√	-	-	√	-	-	-	-
LLaMA系列	LLaMA-33B	-	-	-	-	-	-	-	√	-	-
	LLaMA-65B	-	√	-	-	-	-	-	-	-	-
	LLaMA2-13B	-	-	√	-	-	-	-	√	-	-
	LLaMA2-7B	-	-	√	-	-	-	-	√	-	-
	LLaMA2-70B	-	√	√	-	-	-	-	-	-	-
	LLaMA3-70B	-	√	-	-	-	-	-	-	-	-
	LLaMA3.1-8B	-	-	√	-	-	-	-	-	-	-
	LLaMA3.1-70B	-	-	√	-	-	√	-	√	-	-

注释说明：

¹ 仅MindIE支持w8a16量化模式。
² kvcache量化和fa3量化都纳入c8，两者均量化LLM中的k和v缓存；仅MindIE支持c8量化模式，包括w8a8c8和w4a8c8。
³ 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳；仅MindIE支持稀疏量化模式，包括w8a8s和w16a16s。
⁴ 仅MindIE支持采用了PDMIX量化方案的最佳实践。

多模态模型支持列表

模型类别	模型名称	依赖库	w8a8	w8a8c8/w8a8f8	w8a8s(稀疏量化)¹	w4a8
Qwen3-VL系列	Qwen3-VL-4B-Instruct	transformers==4.57.1	√	-	-	-
	Qwen3-VL-8B-Instruct	transformers==4.57.1	-	-	√	-
	Qwen3-VL-32B-Instruct	transformers==4.57.1	√	-	-	-
Qwen3-VL-MoE系列	Qwen3-VL-235B-A22B	transformers==4.57.1, flax	√(一键量化)	-	-	-
Qwen3-Omni系列	Qwen3-Omni-30B-A3B-Thinking	transformers==4.57.3	√	-	-	-
Qwen3-Omni系列	Qwen3-Omni-30B-A3B-Instruct	transformers==4.57.3	√	-	-	-
Qwen2.5-VL系列	Qwen2.5-VL-7B	transformers==4.49.0, qwen_vl_utils	√	-	-	-
Qwen2.5-VL系列	Qwen2.5-VL-72B	transformers==4.49.0, qwen_vl_utils	√	-	-	-
Qwen2.5-Omni系列	Qwen2.5-Omni-7B	transformers==4.57.3	√	-	-	-
Qwen2-VL系列	Qwen2-VL-7B	transformers==4.46.0, qwen_vl_utils	√	-	-	-
Qwen2-VL系列	Qwen2-VL-72B	transformers==4.46.0, qwen_vl_utils	√	-	-	-
Qwen-VL系列	Qwen-VL	transformers-stream-generator	√	-	-	-
InternVL2系列	InternVL2-8B	transformers==4.46.0, timm, fastchat	√	-	-	-
InternVL2系列	InternVL2-40B	transformers==4.46.0, timm, fastchat	√	-	-	-
LLaVA系列	LLaVA-1.5-7B	transformers==4.37.2	√	-	-	-
GLM-4.1V系列	GLM-4.1V-9B-Thinking	transformers==4.53.0	-	-	√	-
GLM-4.6V	GLM-4.6V	transformers==5.0.0rc0	√	-	-	-
Kimi-K2.5	Kimi-K2.5	transformers>=4.57.1	-	-	-	√
多模态生成模型	SD3-Medium	diffusers	√	-	-	-
	Open-Sora-Plan v1.2	huggingface_hub==0.25.2	√	-	-	-
	FLUX.1-dev	-	√	√(一键量化)	-	-
	HunyuanVideo	-	√	√(一键量化)	-	-
	Wan2.1	-	√(一键量化)	-	-	-
	Wan2.2	-	-	√(一键量化)	-	-
	Qwen-Image-Edit	-	-	√(一键量化)	-	-

注释说明：

¹ 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳；仅MindIE支持稀疏量化模式。
² 其中FLUX.1-dev、HunyuanVideo、Wan2.2、Qwen-Image-Edit-2509支持MXFP量化。