b79f93bc创建于 3月25日历史提交

文件	最后提交记录	最后更新时间
README.md	【doc】调试模式资料 Co-authored-by: ylzzz<yelinzhong@huawei.com> # message auto-generated for no-merge-commit merge: !254 merge ylzzz_ctx_info2 into master 【doc】调试模式资料 Created-by: ylzzz Commit-by: ylzzz Merged-by: ascend-robot Description: 【doc】调试模式资料 See merge request: Ascend/msmodelslim!254	2 个月前

GLM-4.6V 量化说明

模型介绍

GLM-4.6V 是智谱多模态大语言模型的最新迭代版本。GLM-4.6V（106B），一款专为云及高性能集群场景设计的基础模型。 GLM-4.6V在训练中将上下文窗口扩展到128k个词元，并在相似参数规模的模型中，在视觉理解和推理方面达到了最先进的性能。其集成了原生函数调用能力。这有效地弥合了“视觉感知”和“可执行动作”之间的差距，为现实世界业务场景中的多模态智能体提供了统一的技术基础。

使用前准备

安装 msModelSlim 工具，详情请参见《msModelSlim工具安装指南》。
针对 GLM-4.6V，transformers 版本需为 5.0.0rc0：
```
pip install transformers==5.0.0rc0
```

GLM-4.6V 模型当前已验证的量化方法

模型	原始浮点权重	量化方式	推理框架支持情况	量化命令
GLM-4.6V	GLM-4.6V	W8A8 混合量化（MoE专家动态量化）	MindIE 待支持 vLLM Ascend 支持中	W8A8 混合量化

说明： 点击量化命令列中的链接可跳转到对应的具体量化命令。

校准数据说明

校准数据支持的方式，详见 dataset 配置说明：

对 GLM-4.6V，校准时每条样本需要提供文本提示词 text 和对应的图像image，当前缺项的样本不支持。

生成量化权重

GLM-4.6V W8A8 混合量化

该模型的量化已经集成至一键量化。

msmodelslim quant \
    --model_path /path/to/GLM-4.6V_float_weights \
    --save_path /path/to/GLM-4.6V_quantized_weights \
    --device npu \
    --model_type GLM-4.6V \
    --quant_type w8a8 \
    --trust_remote_code True

附录

multimodal_vlm_modelslim_v1 量化服务配置详解