GLM-4.5-Air的高效压缩版本，采用REAP专家剪枝技术，参数从106B减至82B，保持代码生成等核心功能，支持vLLM部署，适合资源受限环境。【此简介由AI生成】

69356056创建于 2025年10月24日2次提交

文件	最后提交记录	最后更新时间
.gitattributes	upload checkpoint	6 个月前
README.md	add missing MTP layers	6 个月前
chat_template.jinja	upload checkpoint	6 个月前
config.json	add missing MTP layers	6 个月前
generation_config.json	upload checkpoint	6 个月前
model-00001-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00002-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00003-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00004-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00005-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00006-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00007-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00008-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00009-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00010-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00011-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00012-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00013-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00014-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00015-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00016-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00017-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00018-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00019-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00020-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00021-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00022-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00023-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00024-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00025-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00026-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00027-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00028-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00029-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00030-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00031-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00032-of-00033.safetensorsLFS	upload checkpoint	6 个月前
model-00033-of-00033.safetensorsLFS	add missing MTP layers	6 个月前
model.safetensors.index.json	add missing MTP layers	6 个月前
special_tokens_map.json	upload checkpoint	6 个月前
tokenizer.jsonLFS	upload checkpoint	6 个月前
tokenizer_config.json	upload checkpoint	6 个月前

自动翻译

language:

en library_name: transformers tags:
glm
MOE
pruning
compression license: mit name: cerebras/GLM-4.5-Air-REAP-82B-A12B description: > This model was obtained by uniformly pruning 25% of experts in GLM-4.5-Air using the REAP method. readme: > https://huggingface.co/cerebras/GLM-4.5-Air-REAP-82B-A12B/main/README.md license_link: https://huggingface.co/zai-org/GLM-4.5-Air/blob/main/LICENSE pipeline_tag: text-generation base_model:
zai-org/GLM-4.5-Air

𓌳 REAP𓌳 专家齐聚：为何剪枝在一次性MoE压缩中表现卓越
REAP

GLM-4.5-Air-REAP-82B-A12B

✨ 亮点特性

隆重推出 GLM-4.5-Air-REAP-82B-A12B，这是GLM-4.5-Air的内存高效压缩版本，在保持近乎一致性能的同时，体积减少25%。

该模型采用REAP（基于路由器权重的专家激活剪枝） 这一创新专家剪枝方法构建而成。此方法能够选择性移除冗余专家，同时保留路由器对剩余专家的独立控制能力。其核心特性包括：

近乎无损的性能：在代码生成、智能体编码和函数调用任务上，保持与完整106B模型几乎相同的准确率
25%内存缩减：参数量从106B压缩至82B，显著降低部署成本和内存需求
保留全部功能：维持所有核心功能，包括代码生成、智能体工作流、仓库级理解和函数调用
即插即用兼容性：可与原生vLLM直接配合使用——无需修改源代码或应用自定义补丁
针对实际应用优化：特别适用于资源受限环境、本地部署和学术研究场景

📋 模型概述

GLM-4.5-Air-REAP-82B-A12B 的规格参数如下：

基础模型：GLM-4.5-Air
压缩方法：REAP（基于路由器权重的专家激活剪枝）
压缩比例：25%专家剪枝
类型：稀疏混合专家（SMoE）因果语言模型
参数量：总计820亿，每token激活120亿
层数：46
注意力头数（GQA）：Q头96个，KV头8个
专家数量：96个（从128个均匀剪枝而来）
每token激活专家数：8个
上下文长度：131,072 tokens
许可证：MIT

📊 评估结果

基准测试	GLM-4.5-Air	GLM-4.5-Air-REAP-82B-A12B
压缩率	—	25%
代码能力
HumanEval	92.7	89.6
HumanEval+	86.0	84.8
MBPP	86.2	84.4
MBPP+	69.8	69.6
推理能力
LiveCodeBench（25.01 - 25.05，思维链）	39.6	42.9
GPQA diamond（思维链）	65.2	65.2
AIME24（思维链）	83.3	80.0
MATH-500（思维链）	94.8	94.8
工具调用
BFCL-v3	73.4	71.8
BFCL-v3（思维链）	76.8	76.3
𝜏²-bench（航空领域）	63.3	64.0
𝜏²-bench（零售领域）	72.8	75.1
𝜏²-bench（电信领域）	28.4	30.7
𝜏²-bench（电信领域，思维链）	27.2	26.9

🟩 该检查点在减轻25%模型大小的同时，保持了几乎一致的性能表现。

有关评估设置的更多详细信息，请参阅REAP arXiv预印本。

🚀 部署

您可以直接使用最新版 vLLM（v0.11.0）部署模型，无需修改源代码或使用自定义补丁。

vllm serve cerebras/GLM-4.5-Air-REAP-82B-A12B \
    --tensor-parallel-size 4 \
    --tool-call-parser glm45 \
    --enable-auto-tool-choice \
    --enable-expert-parallel

如果运行此模型时遇到内存不足的问题，你可能需要将 --max-num-seqs 标志的值设置得更低（例如，设为 64）。

🧩 模型创建

此 checkpoint 是通过在 GLM-4.5-Air 的所有混合专家（Mixture-of-Experts, MoE）块上统一应用 REAP（基于路由器权重的专家激活剪枝） 方法创建的，剪枝率为 25%。

REAP 的工作原理

REAP 基于一种新颖的显著性准则选择要剪枝的专家，该准则同时考虑：

路由器门控值：路由器激活每个专家的频率和强度
专家激活范数：每个专家输出贡献的大小

这种双重考虑确保剪枝对层输出贡献最小的专家，同时保留那些在模型计算中起关键作用的专家。

核心优势

一键式压缩：剪枝后无需微调——模型可立即部署
保留路由器控制：与专家合并方法不同，REAP 保持路由器对剩余专家的独立、输入依赖控制，避免“功能子空间坍缩”
生成任务优势：在生成式基准测试（代码生成、创意写作、数学推理）上，REAP 显著优于专家合并方法，同时在判别式任务上保持竞争力

校准

模型使用多种领域特定数据集的混合进行校准，包括：

代码生成样本 (evol-codealpaca)
函数调用示例 (xlam-function-calling)
智能体多轮轨迹 (SWE-smith-trajectories)

📚 更多详情，请参考以下资源：

⚖️ 许可证

本模型基于 zai-org/GLM-4.5-Air 开发，并根据 MIT 许可证 进行分发。

🧾 引用说明

如果您使用此 checkpoint，请引用 REAP 论文：

@article{lasby-reap,
  title={REAP the Experts: Why Pruning Prevails for One-Shot MoE compression},
  author={Lasby, Mike and Lazarevich, Ivan and Sinnadurai, Nish and Lie, Sean and Ioannou, Yani and Thangarasa, Vithursan},
  journal={arXiv preprint arXiv:2510.13999},
  year={2025}
}

项目介绍

GLM-4.5-Air的高效压缩版本，采用REAP专家剪枝技术，参数从106B减至82B，保持代码生成等核心功能，支持vLLM部署，适合资源受限环境。【此简介由AI生成】

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

语言类型

Jinja100%

GLM-4.5-Air-REAP-82B-A12B:基于REAP方法的GLM-4.5-Air压缩模型，近无损性能且内存降低25%