| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 3 天前 | ||
| 3 天前 | ||
| 3 天前 | ||
| 3 天前 | ||
| 3 天前 | ||
| 3 天前 | ||
| 3 天前 |
amct 大模型量化 Agent Skills
面向昇腾 NPU 大模型量化压缩的 Agent Skills:封装 amct(amct_pytorch)的 LLM 量化全流程(eval / extract_ptq_data / ptq / deploy + blockwise PTQ),让你用自然语言完成「模型 → 量化方案 → 部署权重」。同时适配 Claude Code 与 OpenCode。
快速开始
bash scripts/init-agent.sh # 生成客户端视图;--claude / --opencode 可单装
装好后直接用自然语言描述任务,例如:
把 Qwen3-30B-A3B 量化到 W8A8 并导出部署权重
客户端据此进入编排入口 quant-workflow,自动判阶段、串联子能力,并在方案选择、PTQ 升级、导出等关键决策处与你确认。
前置:
amct_pytorch可导入;NPU 设备由你的环境提供(命令以--device指定);评测数据可达(不可达时可设HF_ENDPOINT镜像 / 用 modelscope / 指本地路径)。
用法:自然语言示例 → 自动进入
无需记命令;客户端按各 skill / 子代理 frontmatter 的 description 匹配诉求自动选用。换个说法、换个模型都行,例如:
| 你这样说(示例) | 自动进入 |
|---|---|
| 「把 Qwen3-30B-A3B 量化到 W8A8 并导出部署权重」 | quant-workflow 全程编排(含确认门) |
| 「DeepSeek-V2-Lite 还没适配,先接进来」 | model-adapter 适配 |
| 「给我这个模型第一轮量化方案」/「W4A8 大概到多少 delta」 | scheme-recommendation 方案推荐 |
| 「跑下 W8A8 直转,看 PPL 和 delta」 | direct-quant-eval 直转评测 |
| 「直转 delta 超 0.2 了怎么升级」/「要不要上 GPTQ」 | algorithm-recommendation → algorithm-validation |
| 「PTQ 跑完了,比直转有没有真改善」 | algorithm-validation 收益验证 |
| 「达标了,导出权重 + 写交付文档」 | deploy-export 导出 + deploy_quantization.md |
| 「deploy 目录有了,就差交付文档」 | deploy-export(阶段 5 补文档) |
| 「量化后 PPL 比 BF16 还低,正常吗」 | quant-workflow 先查链路再判定 |
整句覆盖全流程 → 走完整编排;只说其中一段 → 直接分流到对应叶子,不强行走完整流程。
编排顺序:适配(未适配时)→ 方案 → 直转(delta ≤ 0.2 可直接导出)→ 超阈则升级 PTQ → 导出。
量化能力
| 维度 | 取值 |
|---|---|
| 量化目标 | mlp / moe / attn-linear / attn-cache |
| 位宽·数据类型 | W8A8 / W4A8 / W4A4;int / mxfp |
| 算法 | 直转(minmax 等)、可训练 PTQ(lwc / lac / autoround / omniquant;其余如 gptq/awq 视分支移植) |
| bit 配置 | yaml --bit_config(顶层 w_bits/a_bits + moe.routed/shared + attn-cache 的 q/k/p/v) |
| 评测·阈值 | Wikitext PPL;默认接受 delta ≤ 0.2 |
| 产物 | compressed-tensors(config.json + 分片权重 + deploy_quantization.md) |
协作结构
编排入口 quant-workflow 按职责委派三个子代理,经共享状态文件 progress.md 传递上下文:
quant-analyzer—— 适配性分析、方案 / 算法推荐(只读代码)quant-implementer—— 执行全部量化命令(统一走quant-run:直转评测 / 校准 / ptq / 导出)、adapter 改造(读写文件)quant-reviewer—— 精度 / 收益判读、与 casebook 对比(只读quant-run跑出的结果判定,不跑评测/ptq、不改方案)
仓内组织
.agents/ 是唯一可信源(tracked):
.agents/
├── agents/ # 子代理:quant-analyzer / quant-implementer / quant-reviewer
├── skills/ # quant-workflow / quant-tools(叶子含 model-adapter + references 共享)/ gitcode-pr / gitcode-issue / default-skills
├── docs/ # casebook(L1/L2/L3)/ architecture.md / repo-map.md / roadmap.md
├── hooks/ # pre_tool_use / subagent_stop(Claude Code)
├── settings.json # Claude Code 配置(权限 + hooks)
└── opencode.json # OpenCode 配置(plugins + 权限)
scripts/init-agent.sh 据此生成 .claude/、.opencode/ 客户端视图(均 gitignored、全量生成):settings.json→.claude/、opencode.json→.opencode/,skills/agents/hooks/docs 投影到两端。技能清单与规划见 docs/roadmap.md,架构与设计见 docs/architecture.md。
面向 agent 集成
多 agent / 上游集成只需对接唯一入口 quant-workflow(黑盒);契约(输入 / 状态面 / 确认门 / 前置)见 docs/architecture.md 第 8 节。