GLM-4.5-Air的高效压缩版本,采用REAP专家剪枝技术,参数从106B减至82B,保持代码生成等核心功能,支持vLLM部署,适合资源受限环境。【此简介由AI生成】
language:
- en library_name: transformers tags:
- glm
- MOE
- pruning
- compression license: mit name: cerebras/GLM-4.5-Air-REAP-82B-A12B description: > This model was obtained by uniformly pruning 25% of experts in GLM-4.5-Air using the REAP method. readme: > https://huggingface.co/cerebras/GLM-4.5-Air-REAP-82B-A12B/main/README.md license_link: https://huggingface.co/zai-org/GLM-4.5-Air/blob/main/LICENSE pipeline_tag: text-generation base_model:
- zai-org/GLM-4.5-Air
𓌳 REAP𓌳 专家齐聚:为何剪枝在一次性MoE压缩中表现卓越
GLM-4.5-Air-REAP-82B-A12B
✨ 亮点特性
隆重推出 GLM-4.5-Air-REAP-82B-A12B,这是GLM-4.5-Air的内存高效压缩版本,在保持近乎一致性能的同时,体积减少25%。
该模型采用REAP(基于路由器权重的专家激活剪枝) 这一创新专家剪枝方法构建而成。此方法能够选择性移除冗余专家,同时保留路由器对剩余专家的独立控制能力。其核心特性包括:
- 近乎无损的性能:在代码生成、智能体编码和函数调用任务上,保持与完整106B模型几乎相同的准确率
- 25%内存缩减:参数量从106B压缩至82B,显著降低部署成本和内存需求
- 保留全部功能:维持所有核心功能,包括代码生成、智能体工作流、仓库级理解和函数调用
- 即插即用兼容性:可与原生vLLM直接配合使用——无需修改源代码或应用自定义补丁
- 针对实际应用优化:特别适用于资源受限环境、本地部署和学术研究场景
📋 模型概述
GLM-4.5-Air-REAP-82B-A12B 的规格参数如下:
- 基础模型:GLM-4.5-Air
- 压缩方法:REAP(基于路由器权重的专家激活剪枝)
- 压缩比例:25%专家剪枝
- 类型:稀疏混合专家(SMoE)因果语言模型
- 参数量:总计820亿,每token激活120亿
- 层数:46
- 注意力头数(GQA):Q头96个,KV头8个
- 专家数量:96个(从128个均匀剪枝而来)
- 每token激活专家数:8个
- 上下文长度:131,072 tokens
- 许可证:MIT
📊 评估结果
| 基准测试 | GLM-4.5-Air | GLM-4.5-Air-REAP-82B-A12B |
|---|---|---|
| 压缩率 | — | 25% |
| 代码能力 | ||
| HumanEval | 92.7 | 89.6 |
| HumanEval+ | 86.0 | 84.8 |
| MBPP | 86.2 | 84.4 |
| MBPP+ | 69.8 | 69.6 |
| 推理能力 | ||
| LiveCodeBench(25.01 - 25.05,思维链) | 39.6 | 42.9 |
| GPQA diamond(思维链) | 65.2 | 65.2 |
| AIME24(思维链) | 83.3 | 80.0 |
| MATH-500(思维链) | 94.8 | 94.8 |
| 工具调用 | ||
| BFCL-v3 | 73.4 | 71.8 |
| BFCL-v3(思维链) | 76.8 | 76.3 |
| 𝜏²-bench(航空领域) | 63.3 | 64.0 |
| 𝜏²-bench(零售领域) | 72.8 | 75.1 |
| 𝜏²-bench(电信领域) | 28.4 | 30.7 |
| 𝜏²-bench(电信领域,思维链) | 27.2 | 26.9 |
🟩 该检查点在减轻25%模型大小的同时,保持了几乎一致的性能表现。
有关评估设置的更多详细信息,请参阅REAP arXiv预印本。
🚀 部署
您可以直接使用最新版 vLLM(v0.11.0)部署模型,无需修改源代码或使用自定义补丁。
vllm serve cerebras/GLM-4.5-Air-REAP-82B-A12B \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--enable-auto-tool-choice \
--enable-expert-parallel
如果运行此模型时遇到内存不足的问题,你可能需要将 --max-num-seqs 标志的值设置得更低(例如,设为 64)。
🧩 模型创建
此 checkpoint 是通过在 GLM-4.5-Air 的所有混合专家(Mixture-of-Experts, MoE)块上统一应用 REAP(基于路由器权重的专家激活剪枝) 方法创建的,剪枝率为 25%。
REAP 的工作原理
REAP 基于一种新颖的显著性准则选择要剪枝的专家,该准则同时考虑:
- 路由器门控值:路由器激活每个专家的频率和强度
- 专家激活范数:每个专家输出贡献的大小
这种双重考虑确保剪枝对层输出贡献最小的专家,同时保留那些在模型计算中起关键作用的专家。
核心优势
- 一键式压缩:剪枝后无需微调——模型可立即部署
- 保留路由器控制:与专家合并方法不同,REAP 保持路由器对剩余专家的独立、输入依赖控制,避免“功能子空间坍缩”
- 生成任务优势:在生成式基准测试(代码生成、创意写作、数学推理)上,REAP 显著优于专家合并方法,同时在判别式任务上保持竞争力
校准
模型使用多种领域特定数据集的混合进行校准,包括:
- 代码生成样本 (evol-codealpaca)
- 函数调用示例 (xlam-function-calling)
- 智能体多轮轨迹 (SWE-smith-trajectories)
📚 更多详情,请参考以下资源:
⚖️ 许可证
本模型基于
zai-org/GLM-4.5-Air
开发,并根据 MIT 许可证 进行分发。
🧾 引用说明
如果您使用此 checkpoint,请引用 REAP 论文:
@article{lasby-reap,
title={REAP the Experts: Why Pruning Prevails for One-Shot MoE compression},
author={Lasby, Mike and Lazarevich, Ivan and Sinnadurai, Nish and Lie, Sean and Ioannou, Yani and Thangarasa, Vithursan},
journal={arXiv preprint arXiv:2510.13999},
year={2025}
}