大模型支持矩阵

说明：

点击“模型类别”列中的链接，即可跳转到msModelSlim为您推荐的最佳实践页面，里面详细介绍了量化命令和配置说明。
√ 表示该量化策略已通过msModelSlim官方验证，功能完整、性能稳定，建议优先采用。
- 表示该量化策略暂未通过msModelSlim官方验证，用户可根据实际需求进行配置尝试，但量化效果和功能稳定性无法得到官方保证。
标记了“一键量化”的“模型名称-量化模式（w8a8s等）”组合可在安装后使用如下一键量化命令行执行模型量化。
因 Qwen 系列推出能力更强的新版本，Qwen1.5-14B/32B/72B 模型已超维护周期，后续将对该系列老模型实施日落处理，其现网版本量化模式不再提供维护支持。

msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type ${模型名称} --quant_type ${量化模式} --trust_remote_code True

未标记“一键量化”的最佳实践请阅读对应模型类别的最佳实践页面并在example目录下对应模型类别的子目录中执行命令，如DeepSeek、Qwen3。

大语言模型支持列表

模型类别	模型名称	依赖库	w8a16¹	w8a8	w4a8	w8a8c8²	w4a8c8²	w8a8s(稀疏量化)³	w16a16s(浮点稀疏量化)³	w4a4
DeepSeek系列	DeepSeek-V2-16B	-	√	√	-	-	-	-	-	-
	DeepSeek-V2-236B	-	√	√	-	-	-	-	-	-
	DeepSeek-Coder-33B	-	√	√	-	√	-	-	-	-
	DeepSeek-V3	transformers==4.48.2	-	√	-	-	-	-	-	-
	DeepSeek-V3.1	transformers==4.48.2	-	√	√	√	√(一键量化)	-	-	-
	DeepSeek-V3.2-Exp	transformers==4.48.2	-	√(一键量化)	√(一键量化)	-	-	-	-	-
	DeepSeek-V3.2	transformers==4.48.2	-	√(一键量化)	-	-	-	-	-	-
	DeepSeek-R1	transformers==4.48.2	-	√	√	√	-	-	-	-
	DeepSeek-R1-0528	transformers==4.48.2	-	√	√(一键量化)	√	√(一键量化)	-	-	-
DeepSeek-R1-Distill系列	DeepSeek-R1-Distill-Llama-8B	-	-	√	-	-	-	√	-	-
	DeepSeek-R1-Distill-Llama-70B	-	-	√	-	-	-	-	-	-
	DeepSeek-R1-Distill-Qwen-1.5B	-	-	√	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-7B	-	-	√	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-14B	-	-	√	-	-	-	√	-	-
	DeepSeek-R1-Distill-Qwen-32B	-	-	√	-	-	-	√	-	-
Qwen3系列	Qwen3-8B	transformers==4.51.0	-	-	-	-	-	√(一键量化)	-	-
	Qwen3-14B	transformers==4.51.0	-	√(一键量化，仅MindIE支持)⁴	-	-	-	√(一键量化)	-	-
	Qwen3-32B	transformers==4.51.0	-	√(一键量化，仅MindIE支持)⁴	-	√(一键量化)	-	√(一键量化)	√(一键量化)	√
Qwen3-MOE系列	Qwen3-30B-A3B	transformers==4.51.0	-	√	√(一键量化)	-	-	-	-	-
Qwen3-MOE系列	Qwen3-235B-A22B	transformers==4.51.0	-	√	√(一键量化)	-	-	-	-	-
Qwen3-Next系列	Qwen3-Next-80B-A3B-Instruct	transformers>=4.57.0	-	√(一键量化，仅vLLM Ascend支持)	-	-	-	-	-	-
Qwen2.5系列	Qwen2.5-7B-Instruct	-	-	√(一键量化)	-	-	-	√	-	-
	Qwen2.5-14B-Instruct	-	-	√	-	-	-	√	-	-
	Qwen2.5-32B-Instruct	-	-	√(一键量化)	-	-	-	-	-	-
	Qwen2.5-72B-Instruct	-	-	-	-	√(一键量化)	-	-	-	-
	Qwen2.5-Coder-7B-Instruct	-	-	-	-	-	-	√(一键量化)	-	-
Qwen2系列	Qwen2-7B	-	-	√(一键量化)	-	-	-	√(一键量化)	-	-
Qwen2系列	Qwen2-72B	-	√(一键量化)	√(一键量化)	-	√(一键量化)	-	√(一键量化)	-	-
Qwen系列	Qwen-7B	-	-	√	-	-	-	-	-	-
	Qwen-14B	-	-	√	-	-	-	-	-	-
	Qwen-72B	-	√	-	-	-	-	-	-	-
	Qwen1.5-14B	-	-	√	-	-	-	√	-	-
	Qwen1.5-32B	-	-	√	-	-	-	-	-	-
	Qwen1.5-72B	-	√	-	-	-	-	-	-	-
	Qwen1.5-110B	-	√(一键量化)	-	-	-	-	-	-	-
QwQ系列	QwQ-32B	-	-	√(一键量化)	-	-	-	√(一键量化)	-	-
GLM系列	GLM-4-9B	-	-	√	-	√	-	√	-	-
HunYuan系列	Hunyuan-A52B-Instruct	transformers>=4.48.2	-	√	-	-	-	-	-	-
InternLM系列	InternLM2-20B	-	√	√	-	√	-	-	-	-
LLaMA系列	LLaMA-33B	-	-	-	-	-	-	√	-	-
	LLaMA-65B	-	√	-	-	-	-	-	-	-
	LLaMA2-13B	-	-	√	-	-	-	√	-	-
	LLaMA2-7B	-	-	√	-	-	-	√	-	-
	LLaMA2-70B	-	√	√	-	-	-	-	-	-
	LLaMA3-70B	-	√	-	-	-	-	-	-	-
	LLaMA3.1-8B	-	-	√	-	-	-	-	-	-
	LLaMA3.1-70B	-	-	√	-	√	-	√	-	-
Kimi系列	Kimi-K2-Instruct-0905	transformers==4.48.2	-	√(一键量化)	-	-	-	-	-	-

注释说明：

¹ 仅MindIE支持w8a16量化模式。
² kvcache量化和fa3量化都纳入c8，两者均量化LLM中的k和v缓存；仅MindIE支持c8量化模式，包括w8a8c8和w4a8c8。
³ 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳；仅MindIE支持稀疏量化模式，包括w8a8s和w16a16s。
⁴ 仅MindIE支持采用了PDMIX量化方案的最佳实践，如需使用vllm-ascend部署量化模型，请参考Qwen量化案例，通过config_path指定非PDMIX量化方案。

多模态模型支持列表

模型类别	模型名称	依赖库	w8a8	w8a8c8	w8a8s(稀疏量化)¹
Qwen3-VL系列	Qwen3-VL-8B-Instruct	transformers==4.57.1	-	-	√
Qwen3-VL-MoE系列	Qwen3-VL-235B-A22B	transformers==4.57.1, flax	√	-	-
Qwen2.5-VL系列	Qwen2.5-VL-7B	transformers==4.49.0, qwen_vl_utils	√	-	-
Qwen2.5-VL系列	Qwen2.5-VL-72B	transformers==4.49.0, qwen_vl_utils	√	-	-
Qwen2-VL系列	Qwen2-VL-7B	transformers==4.46.0, qwen_vl_utils	√	-	-
Qwen2-VL系列	Qwen2-VL-72B	transformers==4.46.0, qwen_vl_utils	√	-	-
Qwen-VL系列	Qwen-VL	transformers-stream-generator	√	-	-
InternVL2系列	InternVL2-8B	transformers==4.46.0, timm, fastchat	√	-	-
InternVL2系列	InternVL2-40B	transformers==4.46.0, timm, fastchat	√	-	-
LLaVA系列	LLaVA-1.5-7B	transformers==4.37.2	√	-	-
GLM-4.1V系列	GLM-4.1V-9B-Thinking	transformers==4.53.0	-	-	√
多模态生成模型	SD3-Medium	diffusers	√	-	-
	Open-Sora-Plan v1.2	huggingface_hub==0.25.2	√	-	-
	FLUX.1-dev	-	√	√	-
	HunyuanVideo	-	√	√	-
	Wan2.1	-	√(一键量化)	-	-

注释说明：

¹ 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳；仅MindIE支持稀疏量化模式。