ascend-robotKimi-k2-instruct-0905-W8A8量化适配

44f78a73创建于 2025年12月16日历史提交

文件	最后提交记录	最后更新时间
README.md	Kimi-k2-instruct-0905-W8A8量化适配 Co-authored-by: Secluded_Ocean<tangchuxiao0709@qq.com>	5 个月前
img.png	Kimi-k2-instruct-0905-W8A8量化适配 Co-authored-by: Secluded_Ocean<tangchuxiao0709@qq.com>	5 个月前
img_1.png	Kimi-k2-instruct-0905-W8A8量化适配 Co-authored-by: Secluded_Ocean<tangchuxiao0709@qq.com>	5 个月前

Kimi 量化案例

模型介绍

Kimi-K2-Instruct-0905是月之暗面（Moonshot AI）开发的高效指令遵循语言模型。它基于Kimi Chat 1.0架构优化，专注于准确理解和执行复杂的人类指令。该模型在代码生成、多轮对话、逻辑推理及中文处理方面表现突出，具备强大的上下文处理能力。其设计注重响应质量与实用性，适合作为智能助手、内容创作及开发者工具等多种场景下的核心AI引擎。

环境配置

环境配置请参考安装指南。
对于Kimi系列模型，由于模型比较大，请先完成" 运行前必检"（Kimi运行前必检）。
由于模型量化（Model Quantization）对显存要求较高，请确保在单卡显存不低于64G的环境下执行。

支持的模型版本与量化策略

模型系列	模型版本	HuggingFace链接	W8A8	W8A16	W4A8	W8A8C8	W4A8C8	稀疏量化	KV Cache	Attention	FA3量化	MTP量化	量化命令
Kimi K2-Instruct-0905	Kimi K2-Instruct-0905	Kimi-K2-Instruct-0905	✅										W8A8

说明：

✅ 表示该量化策略已通过msModelSlim官方验证，功能完整、性能稳定，建议优先采用。
空格表示该量化策略暂未通过msModelSlim官方验证，用户可根据实际需求进行配置尝试，但量化效果和功能稳定性无法得到官方保证。
点击量化命令列中的链接可跳转到对应的具体量化命令。

量化权重生成

使用案例

请将${model_path}和${save_path}替换为用户实际路径。

Kimi-K2-Instruct系列

运行前必检

Kimi-K2-Instruct-0905模型较大，且存在需要手动适配的点，为了避免浪费时间，还请在运行脚本前，请根据以下必检项对相关内容进行更改。

1、昇腾（Ascend）不支持flash_attn库，运行时需要注释掉权重文件夹中modeling_deepseek.py中的部分代码

2、需安装4.48.2版本的transformers

3、当前transformers不支持FP8量化格式加载，需要将权重文件夹中config.json中的以下字段删除：

Kimi-K2-Instruct-0905 W8A8量化

生成Kimi-K2-Instruct-0905模型W8A8量化权重，使用自动混合min-max和histogram的激活值量化方式，SmoothQuant加强版算法，在NPU上进行运算
```
msmodelslim quant --model_path ${model_path} --save_path ${save_path} --device npu --model_type Kimi-K2-Instruct-0905 --quant_type w8a8 --trust_remote_code True
```