Star251

Star251

cann-robotfeat: 量化agent引入

0ecfdf4c创建于 7 天前历史提交

文件	最后提交记录	最后更新时间
README.md	feat: 量化agent引入 Co-authored-by: xieyajun<xieyajun1@huawei.com> # message auto-generated for no-merge-commit merge: !148 merge feat/quant-agent-migration into master feat: 量化agent引入 Created-by: xieyajun Commit-by: xieyajun Merged-by: cann-robot Description: ## 描述引入「昇腾 NPU 大模型量化压缩」的 Agent Skills 框架（`.agents/`），把 amct（`amct_pytorch`）的 LLM 量化全流程（`eval / extract_ptq_data / ptq / deploy` + blockwise PTQ）封装为可用自然语言驱动的 agent 能力，同时适配 Claude Code 与 OpenCode。 1. 单源双视图：`.agents/` 为唯一 git-tracked 源；`scripts/init-agent.sh` 投影生成 `.claude/` 与 `.opencode/` 客户端视图（gitignored）。原 `.claude/` 下 skills 迁为 `.agents/` 源；`CLAUDE.md` 改由脚本生成的仓根 symlink → `AGENTS.md`。 2. 单编排入口 `quant-workflow` + 3 专职子代理（`quant-analyzer` 分析 / `quant-implementer` 实施 / `quant-reviewer` 审查，硬边界隔离）+ 叶子技能（`quant-tools/`：方案推荐 / 直转评测 / 算法推荐 / 算法验证 / 部署导出；`model-adapter`）+ 通用协作（`gitcode-pr` / `gitcode-issue` / `default-skills`）+ 共享输入模板。 3. casebook 三层经验库：L1 跨网络 `common-pitfalls.md` / L2 结构家族 `family-pitfalls.md`（含触发信号）/ L3 各厂商系列个案（qwen ×5、deepseek v3.2·v4、glm-5.1、longcat），按源码 `common/models/llm/<vendor>/` 对齐；只沉淀可复用 hard bug + 适配重点 + 精度。 4. 多 agent 集成契约：`quant-workflow` 为唯一入口（黑盒），`progress.md` 顶部机读状态块（`STAGE/STATUS/DELTA/ARTIFACTS/BLOCKED`）供轮询；前置不满足 fail-fast 写 `BLOCKED`；human-in-the-loop 四确认门；`architecture.md §8` 给出集成契约，README 含前置声明与自然语言示例。 ## 如何测试 1. 量化 agent 功能：`bash scripts/init-agent.sh` 后用 opencode 启动 agent，给「为 Qwen3-8B 推荐量化方案（只分析不跑 NPU）」→ 正确路由到 scheme-recommendation，复用 casebook（Qwen3-4B/8B 实测值）给出 W8A8 直转首推 + 升级/回退路径，未触发评测命令。 2. 脚手架：`init-agent.sh` 生成 `.claude/{skills,agents,hooks,settings.json}` + `.opencode/{skills,agents}` + `CLAUDE.md`；生成的 `settings.json` 无 SessionStart hook、无 `install-default-skills.ts`（自动安装已移除、按需保留）。 3. 量化主流程冒烟：按 `direct-quant-eval` / `deploy-export` 技能跑一遍 eval/deploy，产物正常。 ## 文档更新 - 新增 `.agents/**`、`scripts/init-agent.sh`。 - 更新 `.gitignore`。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!148	7 天前
deepseek-v3.2.md	feat: 量化agent引入 Co-authored-by: xieyajun<xieyajun1@huawei.com> # message auto-generated for no-merge-commit merge: !148 merge feat/quant-agent-migration into master feat: 量化agent引入 Created-by: xieyajun Commit-by: xieyajun Merged-by: cann-robot Description: ## 描述引入「昇腾 NPU 大模型量化压缩」的 Agent Skills 框架（`.agents/`），把 amct（`amct_pytorch`）的 LLM 量化全流程（`eval / extract_ptq_data / ptq / deploy` + blockwise PTQ）封装为可用自然语言驱动的 agent 能力，同时适配 Claude Code 与 OpenCode。 1. 单源双视图：`.agents/` 为唯一 git-tracked 源；`scripts/init-agent.sh` 投影生成 `.claude/` 与 `.opencode/` 客户端视图（gitignored）。原 `.claude/` 下 skills 迁为 `.agents/` 源；`CLAUDE.md` 改由脚本生成的仓根 symlink → `AGENTS.md`。 2. 单编排入口 `quant-workflow` + 3 专职子代理（`quant-analyzer` 分析 / `quant-implementer` 实施 / `quant-reviewer` 审查，硬边界隔离）+ 叶子技能（`quant-tools/`：方案推荐 / 直转评测 / 算法推荐 / 算法验证 / 部署导出；`model-adapter`）+ 通用协作（`gitcode-pr` / `gitcode-issue` / `default-skills`）+ 共享输入模板。 3. casebook 三层经验库：L1 跨网络 `common-pitfalls.md` / L2 结构家族 `family-pitfalls.md`（含触发信号）/ L3 各厂商系列个案（qwen ×5、deepseek v3.2·v4、glm-5.1、longcat），按源码 `common/models/llm/<vendor>/` 对齐；只沉淀可复用 hard bug + 适配重点 + 精度。 4. 多 agent 集成契约：`quant-workflow` 为唯一入口（黑盒），`progress.md` 顶部机读状态块（`STAGE/STATUS/DELTA/ARTIFACTS/BLOCKED`）供轮询；前置不满足 fail-fast 写 `BLOCKED`；human-in-the-loop 四确认门；`architecture.md §8` 给出集成契约，README 含前置声明与自然语言示例。 ## 如何测试 1. 量化 agent 功能：`bash scripts/init-agent.sh` 后用 opencode 启动 agent，给「为 Qwen3-8B 推荐量化方案（只分析不跑 NPU）」→ 正确路由到 scheme-recommendation，复用 casebook（Qwen3-4B/8B 实测值）给出 W8A8 直转首推 + 升级/回退路径，未触发评测命令。 2. 脚手架：`init-agent.sh` 生成 `.claude/{skills,agents,hooks,settings.json}` + `.opencode/{skills,agents}` + `CLAUDE.md`；生成的 `settings.json` 无 SessionStart hook、无 `install-default-skills.ts`（自动安装已移除、按需保留）。 3. 量化主流程冒烟：按 `direct-quant-eval` / `deploy-export` 技能跑一遍 eval/deploy，产物正常。 ## 文档更新 - 新增 `.agents/**`、`scripts/init-agent.sh`。 - 更新 `.gitignore`。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!148	7 天前
deepseekv4.md	feat: 量化agent引入 Co-authored-by: xieyajun<xieyajun1@huawei.com> # message auto-generated for no-merge-commit merge: !148 merge feat/quant-agent-migration into master feat: 量化agent引入 Created-by: xieyajun Commit-by: xieyajun Merged-by: cann-robot Description: ## 描述引入「昇腾 NPU 大模型量化压缩」的 Agent Skills 框架（`.agents/`），把 amct（`amct_pytorch`）的 LLM 量化全流程（`eval / extract_ptq_data / ptq / deploy` + blockwise PTQ）封装为可用自然语言驱动的 agent 能力，同时适配 Claude Code 与 OpenCode。 1. 单源双视图：`.agents/` 为唯一 git-tracked 源；`scripts/init-agent.sh` 投影生成 `.claude/` 与 `.opencode/` 客户端视图（gitignored）。原 `.claude/` 下 skills 迁为 `.agents/` 源；`CLAUDE.md` 改由脚本生成的仓根 symlink → `AGENTS.md`。 2. 单编排入口 `quant-workflow` + 3 专职子代理（`quant-analyzer` 分析 / `quant-implementer` 实施 / `quant-reviewer` 审查，硬边界隔离）+ 叶子技能（`quant-tools/`：方案推荐 / 直转评测 / 算法推荐 / 算法验证 / 部署导出；`model-adapter`）+ 通用协作（`gitcode-pr` / `gitcode-issue` / `default-skills`）+ 共享输入模板。 3. casebook 三层经验库：L1 跨网络 `common-pitfalls.md` / L2 结构家族 `family-pitfalls.md`（含触发信号）/ L3 各厂商系列个案（qwen ×5、deepseek v3.2·v4、glm-5.1、longcat），按源码 `common/models/llm/<vendor>/` 对齐；只沉淀可复用 hard bug + 适配重点 + 精度。 4. 多 agent 集成契约：`quant-workflow` 为唯一入口（黑盒），`progress.md` 顶部机读状态块（`STAGE/STATUS/DELTA/ARTIFACTS/BLOCKED`）供轮询；前置不满足 fail-fast 写 `BLOCKED`；human-in-the-loop 四确认门；`architecture.md §8` 给出集成契约，README 含前置声明与自然语言示例。 ## 如何测试 1. 量化 agent 功能：`bash scripts/init-agent.sh` 后用 opencode 启动 agent，给「为 Qwen3-8B 推荐量化方案（只分析不跑 NPU）」→ 正确路由到 scheme-recommendation，复用 casebook（Qwen3-4B/8B 实测值）给出 W8A8 直转首推 + 升级/回退路径，未触发评测命令。 2. 脚手架：`init-agent.sh` 生成 `.claude/{skills,agents,hooks,settings.json}` + `.opencode/{skills,agents}` + `CLAUDE.md`；生成的 `settings.json` 无 SessionStart hook、无 `install-default-skills.ts`（自动安装已移除、按需保留）。 3. 量化主流程冒烟：按 `direct-quant-eval` / `deploy-export` 技能跑一遍 eval/deploy，产物正常。 ## 文档更新 - 新增 `.agents/**`、`scripts/init-agent.sh`。 - 更新 `.gitignore`。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!148	7 天前

DeepSeek Casebook

这一页是 DeepSeek 系列总览页，不是具体模型个案。通用坑先读 L1 跨网络 + L2 结构家族（MLA / MoE / 自定义 modeling）。

系列概览

当前已覆盖模型：deepseek_v3_2、deepseek_v4（glm5 亦继承 DeepseekV32）
整体结构特点：这一系列的 decoder block 同时包含 attention 侧和 MoE 侧，attention 路径内部还会分成不同分支，量化时通常需要把 mla 和 moe 分开看
与其他系列最接近的是：MoE 侧能复用通用 PtqUnit 和 apply_quant_to_moe_mlp，attention 侧则更依赖 DeepSeek 专属的 wrapper 与 target 路由

默认参考路径

新模型进入时优先参考：deepseekv3_2.py、quant_module.py；更复杂的 MLA+Compressor+Indexer+HC 见 deepseekv4.py
适配优先顺序：先拿 BF16 blockwise baseline，确认 position_ids / attention_mask 路径一致，再分别打通 attention 侧和 MoE 侧的最小闭环
默认优先复用的抽象：BaseModel、PtqUnit、现有 quant-apply helper、QuantDeepseekV3MLP

通用适配经验

这一系列最容易需要单独 wrapper 的地方通常是 attention 侧分支和 MoE experts
默认不要先改 workflow、solver 和 quant module，优先把模型特有逻辑留在 amct_pytorch/common/models/llm/deepseek/...
适配时最常见的实现风险是：layer_type 分支判断不一致、target 路由和真实模块不一致，或者 blockwise 路径漏传 position_ids / attention_mask

通用量化经验

BF16 baseline 一般先用 Wikitext PPL 的 blockwise 口径拿
第一版直转量化通常先分路径验证：attention 侧先看 mla，MoE 侧再单独看 moe，不要一开始把所有分支绑在一起
哪类模块通常更敏感：attention / rotary / cache 相关路径，以及 expert / shared expert 路由
什么时候通常要进入 PTQ：直转量化 delta > 0.2，或者已经做过一轮粗粒度误差定位之后

常见问题

问题 1：blockwise attention 路径和真实 decoder 对不齐
- 现象：BF16 或 quant PPL 明显异常，或者单层 block 输出和整链行为不一致
- 优先检查：position_ids、attention_mask、layer_type 分支，以及目标 target 是否走到了正确 wrapper
问题 2：MoE PTQ unit 枚举或输入匹配失败
- 现象：expert 输入文件匹配不到、iter_ptq_units() 枚举结果异常，或者 routed/shared expert 混在一起
- 优先检查：iter_ptq_units()、_resolve_unit_input_files() 里的命名约定，以及 expert metadata 是否和数据落盘命名一致

已有个案

DeepSeek-V3.2 — 待补（DeepseekV32 基类：MLA+MoE+DSA，moe-only，仅精度）
deepseekv4 — 厚（MLA + Compressor + Indexer + HC + grouped wo + 自定义 forward；代码侧适配完成，等权重补 BF16/PTQ）