大模型支持矩阵

说明:

  • 点击“模型类别”列中的链接,即可跳转到msModelSlim为您推荐的最佳实践页面,里面详细介绍了量化命令和配置说明。
  • √ 表示该量化策略已通过msModelSlim官方验证,功能完整、性能稳定,建议优先采用。
  • - 表示该量化策略暂未通过msModelSlim官方验证,用户可根据实际需求进行配置尝试,但量化效果和功能稳定性无法得到官方保证。
  • 标记了“一键量化”的“模型名称-量化模式(w8a8s等)”组合可在安装后使用如下一键量化命令行执行模型量化。
  • 因 Qwen 系列推出能力更强的新版本,Qwen1.5-14B/32B/72B 模型已超维护周期,后续将对该系列老模型实施日落处理,其现网版本量化模式不再提供维护支持。
msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type ${模型名称} --quant_type ${量化模式} --trust_remote_code True
  • 未标记“一键量化”的最佳实践请阅读对应模型类别的最佳实践页面并在example目录下对应模型类别的子目录中执行命令,如DeepSeekQwen3

大语言模型支持列表

模型类别 模型名称 依赖库 w8a161 w8a8 w4a8 w8a8c82 w4a8c82 w8a8s(稀疏量化)3 w16a16s(浮点稀疏量化)3 w4a4
DeepSeek系列 DeepSeek-V2-16B - - - - - - -
DeepSeek-V2-236B - - - - - - -
DeepSeek-Coder-33B - - - - - -
DeepSeek-V3 transformers==4.48.2 - - - - - - -
DeepSeek-V3.1 transformers==4.48.2 - √(一键量化) - - -
DeepSeek-V3.2-Exp transformers==4.48.2 - √(一键量化) √(一键量化) - - - - -
DeepSeek-V3.2 transformers==4.48.2 - √(一键量化) - - - - - -
DeepSeek-R1 transformers==4.48.2 - - - - -
DeepSeek-R1-0528 transformers==4.48.2 - √(一键量化) √(一键量化) - - -
DeepSeek-R1-Distill系列 DeepSeek-R1-Distill-Llama-8B - - - - - - -
DeepSeek-R1-Distill-Llama-70B - - - - - - - -
DeepSeek-R1-Distill-Qwen-1.5B - - - - - - -
DeepSeek-R1-Distill-Qwen-7B - - - - - - -
DeepSeek-R1-Distill-Qwen-14B - - - - - - -
DeepSeek-R1-Distill-Qwen-32B - - - - - - -
Qwen3系列 Qwen3-8B transformers==4.51.0 - - - - - √(一键量化) - -
Qwen3-14B transformers==4.51.0 - √(一键量化,仅MindIE支持)4 - - - √(一键量化) - -
Qwen3-32B transformers==4.51.0 - √(一键量化,仅MindIE支持)4 - √(一键量化) - √(一键量化) √(一键量化)
Qwen3-MOE系列 Qwen3-30B-A3B transformers==4.51.0 - √(一键量化) - - - - -
Qwen3-235B-A22B transformers==4.51.0 - √(一键量化) - - - - -
Qwen3-Next系列 Qwen3-Next-80B-A3B-Instruct transformers>=4.57.0 - √(一键量化,仅vLLM Ascend支持) - - - - - -
Qwen2.5系列 Qwen2.5-7B-Instruct - - √(一键量化) - - - - -
Qwen2.5-14B-Instruct - - - - - - -
Qwen2.5-32B-Instruct - - √(一键量化) - - - - - -
Qwen2.5-72B-Instruct - - - - √(一键量化) - - - -
Qwen2.5-Coder-7B-Instruct - - - - - - √(一键量化) - -
Qwen2系列 Qwen2-7B - - √(一键量化) - - - √(一键量化) - -
Qwen2-72B - √(一键量化) √(一键量化) - √(一键量化) - √(一键量化) - -
Qwen系列 Qwen-7B - - - - - - - -
Qwen-14B - - - - - - - -
Qwen-72B - - - - - - - -
Qwen1.5-14B - - - - - - -
Qwen1.5-32B - - - - - - - -
Qwen1.5-72B - - - - - - - -
Qwen1.5-110B - √(一键量化) - - - - - - -
QwQ系列 QwQ-32B - - √(一键量化) - - - √(一键量化) - -
GLM系列 GLM-4-9B - - - - - -
HunYuan系列 Hunyuan-A52B-Instruct transformers>=4.48.2 - - - - - - -
InternLM系列 InternLM2-20B - - - - - -
LLaMA系列 LLaMA-33B - - - - - - - -
LLaMA-65B - - - - - - - -
LLaMA2-13B - - - - - - -
LLaMA2-7B - - - - - - -
LLaMA2-70B - - - - - - -
LLaMA3-70B - - - - - - - -
LLaMA3.1-8B - - - - - - - -
LLaMA3.1-70B - - - - - -
Kimi系列 Kimi-K2-Instruct-0905 transformers==4.48.2 - √(一键量化) - - - - - -

注释说明:

  • 1 仅MindIE支持w8a16量化模式。
  • 2 kvcache量化和fa3量化都纳入c8,两者均量化LLM中的k和v缓存;仅MindIE支持c8量化模式,包括w8a8c8和w4a8c8。
  • 3 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳;仅MindIE支持稀疏量化模式,包括w8a8s和w16a16s。
  • 4 仅MindIE支持采用了PDMIX量化方案的最佳实践,如需使用vllm-ascend部署量化模型,请参考Qwen量化案例,通过config_path指定非PDMIX量化方案。

多模态模型支持列表

模型类别 模型名称 依赖库 w8a8 w8a8c8 w8a8s(稀疏量化)1
Qwen3-VL系列 Qwen3-VL-8B-Instruct transformers==4.57.1 - -
Qwen3-VL-MoE系列 Qwen3-VL-235B-A22B transformers==4.57.1, flax - -
Qwen2.5-VL系列 Qwen2.5-VL-7B transformers==4.49.0, qwen_vl_utils - -
Qwen2.5-VL-72B transformers==4.49.0, qwen_vl_utils - -
Qwen2-VL系列 Qwen2-VL-7B transformers==4.46.0, qwen_vl_utils - -
Qwen2-VL-72B transformers==4.46.0, qwen_vl_utils - -
Qwen-VL系列 Qwen-VL transformers-stream-generator - -
InternVL2系列 InternVL2-8B transformers==4.46.0, timm, fastchat - -
InternVL2-40B transformers==4.46.0, timm, fastchat - -
LLaVA系列 LLaVA-1.5-7B transformers==4.37.2 - -
GLM-4.1V系列 GLM-4.1V-9B-Thinking transformers==4.53.0 - -
多模态生成模型 SD3-Medium diffusers - -
Open-Sora-Plan v1.2 huggingface_hub==0.25.2 - -
FLUX.1-dev - -
HunyuanVideo - -
Wan2.1 - √(一键量化) - -

注释说明:

  • 1 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳;仅MindIE支持稀疏量化模式。