7e0a1a64创建于 4月10日历史提交

文件	最后提交记录	最后更新时间
DeepSeek	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
GLM	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
GPT-NeoX	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
HunYuan	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
InternLM2	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
Kimi	Kimi-k2-instruct-0905-W8A8量化适配 Co-authored-by: Secluded_Ocean<tangchuxiao0709@qq.com>	5 个月前
Llama	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
Qwen	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
Qwen3-MOE	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
Qwen3-Next	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
common	docs：文档低错修改，更新overview文档。 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
multimodal_sd	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
multimodal_vlm	【docs】：定期检查低错修改；readme格式修改 Co-authored-by: zzm30<zhengzhimin1@h-partners.com>	1 个月前
osp1_2	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
README.md	【docs】: 低错格式修改，增加简介文件 Co-authored-by: zhengzhimin60116158<zhengzhimin1@h-partners.com>	2 个月前
deq_scale_cast.py	【msmodelslim】【feature】增加deq_scale数据类型离线转换脚本 Co-authored-by: pu-zhe<puzhe1@h-partners.com>	4 个月前
ms_to_vllm.py	【msmodelslim】【安全】数组越界风险 Co-authored-by: zhangz200102<zhangzheng183@huawei.com>	7 个月前

msModelSlim 推荐实践集

msModelSlim 推荐实践集提供了各种大语言模型、多模态理解模型和多模态生成模型的量化实践案例，帮助用户快速上手模型量化功能。

目录结构

大语言模型量化案例

DeepSeek - DeepSeek 系列模型量化案例
GLM - GLM 系列模型量化案例
GPT-NeoX - GPT-NeoX 系列模型量化案例
HunYuan - HunYuan 系列模型量化案例
InternLM2 - InternLM2 系列模型量化案例
Llama - LLaMA 系列模型量化案例
Qwen - Qwen 系列模型量化案例
Qwen3-MOE - Qwen3-MOE 系列模型量化案例
Qwen3-Next - Qwen3-Next 系列模型量化案例

多模态理解模型量化案例

multimodal_vlm - 多模态理解模型量化案例
- LLaVA 系列模型
- Qwen-VL 系列模型
- InternVL2 系列模型
- Qwen2-VL 系列模型
- Qwen2.5-VL 系列模型
- Qwen3-VL 系列模型
- Qwen3-VL-MoE 系列模型
- GLM-4.1V 系列模型

多模态生成模型量化案例

multimodal_sd - 多模态生成模型量化案例
- Stable Diffusion 系列模型
- Flux 系列模型
- HunYuanVideo 系列模型
- OpenSoraPlanV1_2 系列模型
- Wan2.1 系列模型

其他功能

common - 通用工具和校准数据
osp1_2 - OpenSora Plan 1.2 相关功能
ms_to_vllm.py - msModelSlim 到 vLLM 格式转换工具

快速开始

环境配置

环境配置请参考安装指南
不同模型系列可能依赖特定的版本，请参考各模型目录下的具体说明。

使用多卡量化功能

重要提醒：Atlas 300I Duo 卡仅支持单卡单芯片处理器量化。

如需使用 NPU 多卡量化，请先配置环境变量：

export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:False