欢迎来到 msModelSlim

ModelSlim Slogan

MindStudio ModelSlim(昇腾模型压缩工具,msModelSlim),一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。包含量化和压缩等一系列推理优化技术,旨在加速大语言稠密模型、MoE模型、多模态理解模型、多模态生成模型等。 💻

昇腾 AI 开发者可通过调用 msModelSlim 提供的丰富 Python API,灵活实现算法适配与模型压缩,支持多种格式的权重导出及全流程的精度、性能调优。经过优化后的模型可无缝接入 MindIE、vLLM Ascend 等主流推理框架,在昇腾 AI 处理器上实现高效部署。 ⚡

⭐ 核心优势

  • 高效压缩 📦 —— 支持多种量化算法,显著降低显存占用。
  • 昇腾亲和 ⚙️ —— 深度适配昇腾硬件,确保最佳推理性能。
  • 简单易用 🪄 —— 丰富的模型最佳实践库,快速实现模型优化。

📢 最新消息

2025年12月

  • msModelSlim 支持量化精度反馈自动调优,可根据精度需求自动搜索最优量化配置
  • msModelSlim 支持自主量化多模态理解模型,支持多模态理解模型的量化接入
  • msModelSlim 一键量化支持多卡量化,支持分布式逐层量化,提升大模型量化效率
  • msModelSlim 支持 DeepSeek-V3.2 W8A8 量化,单卡64G显存、100G内存即可执行
  • msModelSlim 支持 DeepSeek-V3.2-Exp W4A8 量化,单卡64G显存、100G内存即可执行
  • msModelSlim 支持 Qwen3-VL-235B-A22B W8A8 量化

2025年11月

  • msModelSlim 模型适配支持插件化和配置注册,支持依赖预检

2025年10月

  • msModelSlim 支持 Qwen3-235B-A22B W4A8、Qwen3-30B-A3B W4A8 量化,vLLM Ascend 已支持量化模型推理部署

2025年9月

  • msModelSlim 支持 DeepSeek-V3.2-Exp W8A8 量化,单卡64G显存,100G内存即可执行
  • msModelSlim 现已解决 Qwen3-235B-A22B 在 W8A8 量化下频繁出现“游戏副本”等异常 token 的问题
  • msModelSlim 支持 DeepSeek R1 W4A8 per-channel 量化【Prototype】
  • msModelSlim 支持大模型量化敏感层分析

2025年8月

  • msModelSlim 支持 Wan2.1 模型一键量化

  • msModelSlim 支持大模型逐层量化,显著降低大模型量化内存占用

  • msModelSlim 支持大模型 SSZ 权重量化算法,通过迭代搜索最优缩放因子和偏移量提升量化精度

:标注 Prototype 的特性尚未经过充分验证,可能存在不稳定或缺陷问题;标注 beta 的特性为非商用特性。

msModelSlim 文档

欢迎使用 msModelSlim 文档。msModelSlim 是一款面向昇腾 AI 处理器的综合模型压缩与优化工具。