一键量化快速入门

一键量化功能面向零基础用户,集成热门开源模型量化功能,具备“开箱即用”的特性。本功能支持全局调用量化命令,用户指定必要参数后,即可对目标原始权重执行指定的量化操作。 下面将以 Qwen2.5-7B-Instruct 为例进行介绍。

前置条件

1.安装msModelSlim

根据安装指南完成开发环境配置。

2.下载大模型原始浮点权重

以 Qwen2.5-7B-Instruct 为例,可前往Qwen2.5-7B-Instruct获取原始模型权重。

3.安装其他依赖(与模型相关)

pip install transformers==4.43.1

工具使用说明

一键量化功能通过命令行方式启动,正确安装 msModelSlim 工具后,可以通过如下命令运行:

msmodelslim quant [ARGS]

例如,使用一键量化功能量化 Qwen2.5-7B-Instruct 模型,量化方式采用 w8a8 ,则量化命令如下,其中${MODEL_PATH}为Qwen2.5-7B-Instruct原始浮点权重路径,${SAVE_PATH}为用户自定义的量化权重保存路径。详细接口说明请参考一键量化接口说明。请注意trust_remote_codeTrue时可能执行浮点模型权重中代码文件,请确保浮点模型来源安全可靠。

msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type Qwen2.5-7B-Instruct --quant_type w8a8 --trust_remote_code True

用户输入命令后,系统将根据指定需求,在最佳实践库中匹配到最佳配置从而实施量化。

量化结果输出展示:

├── config.json                          # 原始模型配置文件
├── generation_config.json               # 原始生成配置文件  
├── quant_model_description.json         # 量化权重描述文件
├── quant_model_weight_w8a8.safetensors  # 量化权重文件
├── tokenizer_config.json                # 原始分词器配置文件
├── tokenizer.json                        # 原始分词器词汇表
└── vocab.json                            # 原始词汇映射文件

说明:

  • quant_model_description.json - 包含量化参数和配置信息。
  • quant_model_weight_w8a8.safetensors - 实际的量化模型权重(W8A8表示权重8位量化、激活8位量化)。
  • 其他文件为模型推理所需的配置和词汇表文件,来自原始浮点目录。

一键量化支持矩阵

可通过大模型支持矩阵查看不同模型的一键量化支持情况,其中标记了一键量化的模型则已支持一键量化。

相关资料