msModelSlim 推荐实践集

msModelSlim 推荐实践集提供了各种大语言模型、多模态理解模型和多模态生成模型的量化实践案例,帮助用户快速上手模型量化功能。

目录结构

大语言模型量化案例

  • DeepSeek - DeepSeek 系列模型量化案例
  • GLM - GLM 系列模型量化案例
  • GPT-NeoX - GPT-NeoX 系列模型量化案例
  • HunYuan - HunYuan 系列模型量化案例
  • InternLM2 - InternLM2 系列模型量化案例
  • Llama - LLaMA 系列模型量化案例
  • Qwen - Qwen 系列模型量化案例
  • Qwen3-MOE - Qwen3-MOE 系列模型量化案例
  • Qwen3-Next - Qwen3-Next 系列模型量化案例

多模态理解模型量化案例

  • multimodal_vlm - 多模态理解模型量化案例
    • LLaVA 系列模型
    • Qwen-VL 系列模型
    • InternVL2 系列模型
    • Qwen2-VL 系列模型
    • Qwen2.5-VL 系列模型
    • Qwen3-VL 系列模型
    • Qwen3-VL-MoE 系列模型
    • GLM-4.1V 系列模型

多模态生成模型量化案例

  • multimodal_sd - 多模态生成模型量化案例
    • Stable Diffusion 系列模型
    • Flux 系列模型
    • HunYuanVideo 系列模型
    • OpenSoraPlanV1_2 系列模型
    • Wan2.1 系列模型

其他功能

  • common - 通用工具和校准数据
  • osp1_2 - OpenSora Plan 1.2 相关功能
  • ms_to_vllm.py - msModelSlim 到 vLLM 格式转换工具

快速开始

环境配置

  • 环境配置请参考安装指南
  • 不同模型系列可能依赖特定的版本,请参考各模型目录下的具体说明。

使用多卡量化功能

重要提醒:Atlas 300I Duo 卡仅支持单卡单芯片处理器量化。

如需使用 NPU 多卡量化,请先配置环境变量:

export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:False