大模型支持矩阵
说明:
- 点击“模型类别”列中的链接,即可跳转到msModelSlim为您推荐的最佳实践页面,里面详细介绍了量化命令和配置说明。
- √ 表示该量化策略已通过msModelSlim官方验证,功能完整、性能稳定,建议优先采用。
- - 表示该量化策略暂未通过msModelSlim官方验证,用户可根据实际需求进行配置尝试,但量化效果和功能稳定性无法得到官方保证。
- 标记了“一键量化”的“模型名称-量化模式(w8a8s等)”组合可在安装后使用如下一键量化命令行执行模型量化。
- 因 Qwen 系列推出能力更强的新版本,Qwen1.5-14B/32B/72B 模型已超出维护周期,后续将对该系列老模型实施日落处理,其现网版本量化模式不再提供维护支持。
msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type ${MODEL_TYPE} --quant_type ${QUANT_TYPE} --trust_remote_code True
量化模式命名规范
量化模式名称格式为 W{weight_bit}A{activation_bit}[C{cache_bit}][S],含义如下:
{weight_bit}:权重量化位数(如 8、4、16){activation_bit}:激活值量化位数(如 8、16){cache_bit}(可选):KV Cache 量化位数(如 8)S(可选):表示稀疏量化(Sparse)
大语言模型支持列表
!!! info "提示" 下表内容较多,若显示不全,您可以按住鼠标滚轮或使用底部滚动条左右拖动查看。
| 模型类别 | 模型名称 | 依赖库 | w8a161 | w8a8 | w4a8 | w4a16 | w8a8c82 | w4a8c82 | w8a8s(稀疏量化)3 | w16a16s(浮点稀疏量化)3 | w4a4 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| DeepSeek系列 | DeepSeek-V2-16B | - | √ | √ | - | - | - | - | - | - | - |
| DeepSeek-V2-236B | - | √ | √ | - | - | - | - | - | - | - | |
| DeepSeek-Coder-33B | - | √ | √ | - | - | √ | - | - | - | - | |
| DeepSeek-V3 | transformers==4.48.2 | - | √ | - | - | - | - | - | - | - | |
| DeepSeek-V3.1 | transformers==4.48.2 | - | √ | √ | - | √ | √(一键量化) | - | - | - | |
| DeepSeek-V3.2-Exp | transformers==4.48.2 | - | √(一键量化) | √(一键量化) | - | - | - | - | - | - | |
| DeepSeek-V3.2 | transformers==4.48.2 | - | √(一键量化) | - | - | - | - | - | - | - | |
| DeepSeek-V4-Flash | transformers==4.48.2 | - | √(一键量化) | - | - | - | - | - | - | - | |
| DeepSeek-R1 | transformers==4.48.2 | - | √ | √ | - | √ | - | - | - | - | |
| DeepSeek-R1-0528 | transformers==4.48.2 | - | √ | √(一键量化) | - | √ | √(一键量化) | - | - | - | |
| DeepSeek-R1-Distill系列 | DeepSeek-R1-Distill-Llama-8B | - | - | √ | - | - | - | - | √ | - | - |
| DeepSeek-R1-Distill-Llama-70B | - | - | √ | - | - | - | - | - | - | - | |
| DeepSeek-R1-Distill-Qwen-1.5B | - | - | √ | - | - | - | - | √ | - | - | |
| DeepSeek-R1-Distill-Qwen-7B | - | - | √ | - | - | - | - | √ | - | - | |
| DeepSeek-R1-Distill-Qwen-14B | - | - | √ | - | - | - | - | √ | - | - | |
| DeepSeek-R1-Distill-Qwen-32B | - | - | √ | - | - | - | - | √ | - | - | |
| Qwen3系列 | Qwen3-8B | transformers==4.51.0 | - | - | - | - | - | - | √(一键量化) | - | - |
| Qwen3-14B | transformers==4.51.0 | - | √(一键量化,仅MindIE支持)4 | - | - | - | - | √(一键量化) | - | - | |
| Qwen3-32B | transformers==4.51.0 | - | √(一键量化,仅MindIE支持)4 | - | - | √(一键量化) | - | √(一键量化) | √(一键量化) | √ | |
| Qwen3-MOE系列 | Qwen3-30B-A3B | transformers==4.51.0 | - | √(一键量化) | √(一键量化) | - | - | - | - | - | - |
| Qwen3-235B-A22B | transformers==4.51.0 | - | √ | √(一键量化) | - | - | - | - | - | - | |
| Qwen3-Coder-480B-A35B | transformers==4.51.0 | - | - | √(一键量化) | - | - | - | - | - | - | |
| Qwen3.5系列 | Qwen3.5-397B-A17B | transformers==5.2.0 | - | √(一键量化) | √(一键量化) | - | - | - | - | - | - |
| Qwen3.5-122B-A10B | transformers==5.2.0 | - | √(一键量化) | - | - | - | - | - | - | - | |
| Qwen3.5-35B-A3B | transformers==5.2.0 | - | √(一键量化) | - | - | - | - | - | - | - | |
| Qwen3.5-27B | transformers==5.2.0 | - | √(一键量化) | - | - | - | - | - | - | - | |
| Qwen3-Next系列 | Qwen3-Next-80B-A3B-Instruct | transformers>=4.57.0 | - | √(一键量化,仅vLLM Ascend支持) | - | - | - | - | - | - | - |
| Qwen2.5系列 | Qwen2.5-7B-Instruct | - | - | √(一键量化) | - | - | - | - | √ | - | - |
| Qwen2.5-14B-Instruct | - | - | √ | - | - | - | - | √ | - | - | |
| Qwen2.5-32B-Instruct | - | - | √(一键量化) | - | - | - | - | - | - | - | |
| Qwen2.5-72B-Instruct | - | - | - | - | √ | √(一键量化) | - | - | - | - | |
| Qwen2.5-Coder-7B-Instruct | - | - | - | - | - | - | - | √(一键量化) | - | - | |
| Qwen2系列 | Qwen2-7B | - | - | √ | - | - | - | - | √ | - | - |
| Qwen2-72B | - | √ | √ | - | - | √ | - | √ | - | - | |
| Qwen系列 | Qwen-7B | - | - | √ | - | - | - | - | - | - | - |
| Qwen-14B | - | - | √ | - | - | - | - | - | - | - | |
| Qwen-72B | - | √ | - | - | - | - | - | - | - | - | |
| Qwen1.5-14B | - | - | √ | - | - | - | - | √ | - | - | |
| Qwen1.5-32B | - | - | √ | - | - | - | - | - | - | - | |
| Qwen1.5-72B | - | √ | - | - | - | - | - | - | - | - | |
| Qwen1.5-110B | - | √ | - | - | - | - | - | - | - | - | |
| QwQ系列 | QwQ-32B | - | - | √(一键量化) | - | - | - | - | √(一键量化) | - | - |
| GLM5-MOE系列 | GLM-5 | transformers==5.2.0 | - | √ | √ | - | - | - | - | - | - |
| GLM系列 | GLM-4-9B | - | - | √ | - | - | √ | - | √ | - | - |
| GLM4-MOE系列 | GLM-4.7 | transformers==4.57.3 | - | √(一键量化,仅vLLM Ascend支持) | - | - | - | - | - | - | - |
| HunYuan系列 | Hunyuan-A52B-Instruct | transformers>=4.48.2 | - | √ | - | - | - | - | - | - | - |
| InternLM系列 | InternLM2-20B | - | √ | √ | - | - | √ | - | - | - | - |
| LLaMA系列 | LLaMA-33B | - | - | - | - | - | - | - | √ | - | - |
| LLaMA-65B | - | √ | - | - | - | - | - | - | - | - | |
| LLaMA2-13B | - | - | √ | - | - | - | - | √ | - | - | |
| LLaMA2-7B | - | - | √ | - | - | - | - | √ | - | - | |
| LLaMA2-70B | - | √ | √ | - | - | - | - | - | - | - | |
| LLaMA3-70B | - | √ | - | - | - | - | - | - | - | - | |
| LLaMA3.1-8B | - | - | √ | - | - | - | - | - | - | - | |
| LLaMA3.1-70B | - | - | √ | - | - | √ | - | √ | - | - |
注释说明:
- 1 仅MindIE支持w8a16量化模式。
- 2 kvcache量化和fa3量化都纳入c8,两者均量化LLM中的k和v缓存;仅MindIE支持c8量化模式,包括w8a8c8和w4a8c8。
- 3 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳;仅MindIE支持稀疏量化模式,包括w8a8s和w16a16s。
- 4 仅MindIE支持采用了PDMIX量化方案的最佳实践。
多模态模型支持列表
| 模型类别 | 模型名称 | 依赖库 | w8a8 | w8a8c8/w8a8f8 | w8a8s(稀疏量化)1 | w4a8 |
|---|---|---|---|---|---|---|
| Qwen3-VL系列 | Qwen3-VL-4B-Instruct | transformers==4.57.1 | √ | - | - | - |
| Qwen3-VL-8B-Instruct | transformers==4.57.1 | - | - | √ | - | |
| Qwen3-VL-32B-Instruct | transformers==4.57.1 | √ | - | - | - | |
| Qwen3-VL-MoE系列 | Qwen3-VL-235B-A22B | transformers==4.57.1, flax | √(一键量化) | - | - | - |
| Qwen3-Omni系列 | Qwen3-Omni-30B-A3B-Thinking | transformers==4.57.3 | √ | - | - | - |
| Qwen3-Omni-30B-A3B-Instruct | transformers==4.57.3 | √ | - | - | - | |
| Qwen2.5-VL系列 | Qwen2.5-VL-7B | transformers==4.49.0, qwen_vl_utils | √ | - | - | - |
| Qwen2.5-VL-72B | transformers==4.49.0, qwen_vl_utils | √ | - | - | - | |
| Qwen2.5-Omni系列 | Qwen2.5-Omni-7B | transformers==4.57.3 | √ | - | - | - |
| Qwen2-VL系列 | Qwen2-VL-7B | transformers==4.46.0, qwen_vl_utils | √ | - | - | - |
| Qwen2-VL-72B | transformers==4.46.0, qwen_vl_utils | √ | - | - | - | |
| Qwen-VL系列 | Qwen-VL | transformers-stream-generator | √ | - | - | - |
| InternVL2系列 | InternVL2-8B | transformers==4.46.0, timm, fastchat | √ | - | - | - |
| InternVL2-40B | transformers==4.46.0, timm, fastchat | √ | - | - | - | |
| LLaVA系列 | LLaVA-1.5-7B | transformers==4.37.2 | √ | - | - | - |
| GLM-4.1V系列 | GLM-4.1V-9B-Thinking | transformers==4.53.0 | - | - | √ | - |
| GLM-4.6V | GLM-4.6V | transformers==5.0.0rc0 | √ | - | - | - |
| Kimi-K2.5 | Kimi-K2.5 | transformers>=4.57.1 | - | - | - | √ |
| 多模态生成模型 | SD3-Medium | diffusers | √ | - | - | - |
| Open-Sora-Plan v1.2 | huggingface_hub==0.25.2 | √ | - | - | - | |
| FLUX.1-dev | - | √ | √(一键量化) | - | - | |
| HunyuanVideo | - | √ | √(一键量化) | - | - | |
| Wan2.1 | - | √(一键量化) | - | - | - | |
| Wan2.2 | - | - | √(一键量化) | - | - | |
| Qwen-Image-Edit | - | - | √(一键量化) | - | - |
注释说明:
- 1 压缩后配合Atlas 300I Duo系列产品解压缩特性更佳;仅MindIE支持稀疏量化模式。
- 2 其中FLUX.1-dev、HunyuanVideo、Wan2.2、Qwen-Image-Edit-2509支持MXFP量化。