GLM-4.5-Air-REAP-82B-A12B:基于REAP方法的GLM-4.5-Air压缩模型,近无损性能且内存降低25%

GLM-4.5-Air的高效压缩版本,采用REAP专家剪枝技术,参数从106B减至82B,保持代码生成等核心功能,支持vLLM部署,适合资源受限环境。【此简介由AI生成】

分支1Tags0
IIvan Lazarevichadd missing MTP layers
69356056创建于 2025年10月24日2次提交
文件最后提交记录最后更新时间
upload checkpoint 6 个月前
add missing MTP layers 6 个月前
upload checkpoint 6 个月前
add missing MTP layers 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
add missing MTP layers 6 个月前
add missing MTP layers 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前
upload checkpoint 6 个月前

language:


𓌳 REAP𓌳 专家齐聚:为何剪枝在一次性MoE压缩中表现卓越
REAP

GLM-4.5-Air-REAP-82B-A12B

✨ 亮点特性

隆重推出 GLM-4.5-Air-REAP-82B-A12B,这是GLM-4.5-Air的内存高效压缩版本,在保持近乎一致性能的同时,体积减少25%

该模型采用REAP(基于路由器权重的专家激活剪枝) 这一创新专家剪枝方法构建而成。此方法能够选择性移除冗余专家,同时保留路由器对剩余专家的独立控制能力。其核心特性包括:

  • 近乎无损的性能:在代码生成、智能体编码和函数调用任务上,保持与完整106B模型几乎相同的准确率
  • 25%内存缩减:参数量从106B压缩至82B,显著降低部署成本和内存需求
  • 保留全部功能:维持所有核心功能,包括代码生成、智能体工作流、仓库级理解和函数调用
  • 即插即用兼容性:可与原生vLLM直接配合使用——无需修改源代码或应用自定义补丁
  • 针对实际应用优化:特别适用于资源受限环境、本地部署和学术研究场景

📋 模型概述

GLM-4.5-Air-REAP-82B-A12B 的规格参数如下:

  • 基础模型:GLM-4.5-Air
  • 压缩方法:REAP(基于路由器权重的专家激活剪枝)
  • 压缩比例:25%专家剪枝
  • 类型:稀疏混合专家(SMoE)因果语言模型
  • 参数量:总计820亿,每token激活120亿
  • 层数:46
  • 注意力头数(GQA):Q头96个,KV头8个
  • 专家数量:96个(从128个均匀剪枝而来)
  • 每token激活专家数:8个
  • 上下文长度:131,072 tokens
  • 许可证:MIT

📊 评估结果

基准测试 GLM-4.5-Air GLM-4.5-Air-REAP-82B-A12B
压缩率 25%
代码能力
HumanEval 92.7 89.6
HumanEval+ 86.0 84.8
MBPP 86.2 84.4
MBPP+ 69.8 69.6
推理能力
LiveCodeBench(25.01 - 25.05,思维链) 39.6 42.9
GPQA diamond(思维链) 65.2 65.2
AIME24(思维链) 83.3 80.0
MATH-500(思维链) 94.8 94.8
工具调用
BFCL-v3 73.4 71.8
BFCL-v3(思维链) 76.8 76.3
𝜏²-bench(航空领域) 63.3 64.0
𝜏²-bench(零售领域) 72.8 75.1
𝜏²-bench(电信领域) 28.4 30.7
𝜏²-bench(电信领域,思维链) 27.2 26.9

🟩 该检查点在减轻25%模型大小的同时,保持了几乎一致的性能表现。

有关评估设置的更多详细信息,请参阅REAP arXiv预印本


🚀 部署

您可以直接使用最新版 vLLM(v0.11.0)部署模型,无需修改源代码或使用自定义补丁。

vllm serve cerebras/GLM-4.5-Air-REAP-82B-A12B \
    --tensor-parallel-size 4 \
    --tool-call-parser glm45 \
    --enable-auto-tool-choice \
    --enable-expert-parallel

如果运行此模型时遇到内存不足的问题,你可能需要将 --max-num-seqs 标志的值设置得更低(例如,设为 64)。

🧩 模型创建

此 checkpoint 是通过在 GLM-4.5-Air 的所有混合专家(Mixture-of-Experts, MoE)块上统一应用 REAP(基于路由器权重的专家激活剪枝) 方法创建的,剪枝率为 25%

REAP 的工作原理

REAP 基于一种新颖的显著性准则选择要剪枝的专家,该准则同时考虑:

  • 路由器门控值:路由器激活每个专家的频率和强度
  • 专家激活范数:每个专家输出贡献的大小

这种双重考虑确保剪枝对层输出贡献最小的专家,同时保留那些在模型计算中起关键作用的专家。

核心优势

  • 一键式压缩:剪枝后无需微调——模型可立即部署
  • 保留路由器控制:与专家合并方法不同,REAP 保持路由器对剩余专家的独立、输入依赖控制,避免“功能子空间坍缩”
  • 生成任务优势:在生成式基准测试(代码生成、创意写作、数学推理)上,REAP 显著优于专家合并方法,同时在判别式任务上保持竞争力

校准

模型使用多种领域特定数据集的混合进行校准,包括:

📚 更多详情,请参考以下资源:


⚖️ 许可证

本模型基于 zai-org/GLM-4.5-Air 开发,并根据 MIT 许可证 进行分发。


🧾 引用说明

如果您使用此 checkpoint,请引用 REAP 论文:

@article{lasby-reap,
  title={REAP the Experts: Why Pruning Prevails for One-Shot MoE compression},
  author={Lasby, Mike and Lazarevich, Ivan and Sinnadurai, Nish and Lie, Sean and Ioannou, Yani and Thangarasa, Vithursan},
  journal={arXiv preprint arXiv:2510.13999},
  year={2025}
}

项目介绍

GLM-4.5-Air的高效压缩版本,采用REAP专家剪枝技术,参数从106B减至82B,保持代码生成等核心功能,支持vLLM部署,适合资源受限环境。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Jinja100%