Star246

Star246

cann-robotfeat: 量化agent引入

0ecfdf4c创建于 3 天前历史提交

文件	最后提交记录	最后更新时间
README.md	feat: 量化agent引入 Co-authored-by: xieyajun<xieyajun1@huawei.com> # message auto-generated for no-merge-commit merge: !148 merge feat/quant-agent-migration into master feat: 量化agent引入 Created-by: xieyajun Commit-by: xieyajun Merged-by: cann-robot Description: ## 描述引入「昇腾 NPU 大模型量化压缩」的 Agent Skills 框架（`.agents/`），把 amct（`amct_pytorch`）的 LLM 量化全流程（`eval / extract_ptq_data / ptq / deploy` + blockwise PTQ）封装为可用自然语言驱动的 agent 能力，同时适配 Claude Code 与 OpenCode。 1. 单源双视图：`.agents/` 为唯一 git-tracked 源；`scripts/init-agent.sh` 投影生成 `.claude/` 与 `.opencode/` 客户端视图（gitignored）。原 `.claude/` 下 skills 迁为 `.agents/` 源；`CLAUDE.md` 改由脚本生成的仓根 symlink → `AGENTS.md`。 2. 单编排入口 `quant-workflow` + 3 专职子代理（`quant-analyzer` 分析 / `quant-implementer` 实施 / `quant-reviewer` 审查，硬边界隔离）+ 叶子技能（`quant-tools/`：方案推荐 / 直转评测 / 算法推荐 / 算法验证 / 部署导出；`model-adapter`）+ 通用协作（`gitcode-pr` / `gitcode-issue` / `default-skills`）+ 共享输入模板。 3. casebook 三层经验库：L1 跨网络 `common-pitfalls.md` / L2 结构家族 `family-pitfalls.md`（含触发信号）/ L3 各厂商系列个案（qwen ×5、deepseek v3.2·v4、glm-5.1、longcat），按源码 `common/models/llm/<vendor>/` 对齐；只沉淀可复用 hard bug + 适配重点 + 精度。 4. 多 agent 集成契约：`quant-workflow` 为唯一入口（黑盒），`progress.md` 顶部机读状态块（`STAGE/STATUS/DELTA/ARTIFACTS/BLOCKED`）供轮询；前置不满足 fail-fast 写 `BLOCKED`；human-in-the-loop 四确认门；`architecture.md §8` 给出集成契约，README 含前置声明与自然语言示例。 ## 如何测试 1. 量化 agent 功能：`bash scripts/init-agent.sh` 后用 opencode 启动 agent，给「为 Qwen3-8B 推荐量化方案（只分析不跑 NPU）」→ 正确路由到 scheme-recommendation，复用 casebook（Qwen3-4B/8B 实测值）给出 W8A8 直转首推 + 升级/回退路径，未触发评测命令。 2. 脚手架：`init-agent.sh` 生成 `.claude/{skills,agents,hooks,settings.json}` + `.opencode/{skills,agents}` + `CLAUDE.md`；生成的 `settings.json` 无 SessionStart hook、无 `install-default-skills.ts`（自动安装已移除、按需保留）。 3. 量化主流程冒烟：按 `direct-quant-eval` / `deploy-export` 技能跑一遍 eval/deploy，产物正常。 ## 文档更新 - 新增 `.agents/**`、`scripts/init-agent.sh`。 - 更新 `.gitignore`。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!148	3 天前
longcat.md	feat: 量化agent引入 Co-authored-by: xieyajun<xieyajun1@huawei.com> # message auto-generated for no-merge-commit merge: !148 merge feat/quant-agent-migration into master feat: 量化agent引入 Created-by: xieyajun Commit-by: xieyajun Merged-by: cann-robot Description: ## 描述引入「昇腾 NPU 大模型量化压缩」的 Agent Skills 框架（`.agents/`），把 amct（`amct_pytorch`）的 LLM 量化全流程（`eval / extract_ptq_data / ptq / deploy` + blockwise PTQ）封装为可用自然语言驱动的 agent 能力，同时适配 Claude Code 与 OpenCode。 1. 单源双视图：`.agents/` 为唯一 git-tracked 源；`scripts/init-agent.sh` 投影生成 `.claude/` 与 `.opencode/` 客户端视图（gitignored）。原 `.claude/` 下 skills 迁为 `.agents/` 源；`CLAUDE.md` 改由脚本生成的仓根 symlink → `AGENTS.md`。 2. 单编排入口 `quant-workflow` + 3 专职子代理（`quant-analyzer` 分析 / `quant-implementer` 实施 / `quant-reviewer` 审查，硬边界隔离）+ 叶子技能（`quant-tools/`：方案推荐 / 直转评测 / 算法推荐 / 算法验证 / 部署导出；`model-adapter`）+ 通用协作（`gitcode-pr` / `gitcode-issue` / `default-skills`）+ 共享输入模板。 3. casebook 三层经验库：L1 跨网络 `common-pitfalls.md` / L2 结构家族 `family-pitfalls.md`（含触发信号）/ L3 各厂商系列个案（qwen ×5、deepseek v3.2·v4、glm-5.1、longcat），按源码 `common/models/llm/<vendor>/` 对齐；只沉淀可复用 hard bug + 适配重点 + 精度。 4. 多 agent 集成契约：`quant-workflow` 为唯一入口（黑盒），`progress.md` 顶部机读状态块（`STAGE/STATUS/DELTA/ARTIFACTS/BLOCKED`）供轮询；前置不满足 fail-fast 写 `BLOCKED`；human-in-the-loop 四确认门；`architecture.md §8` 给出集成契约，README 含前置声明与自然语言示例。 ## 如何测试 1. 量化 agent 功能：`bash scripts/init-agent.sh` 后用 opencode 启动 agent，给「为 Qwen3-8B 推荐量化方案（只分析不跑 NPU）」→ 正确路由到 scheme-recommendation，复用 casebook（Qwen3-4B/8B 实测值）给出 W8A8 直转首推 + 升级/回退路径，未触发评测命令。 2. 脚手架：`init-agent.sh` 生成 `.claude/{skills,agents,hooks,settings.json}` + `.opencode/{skills,agents}` + `CLAUDE.md`；生成的 `settings.json` 无 SessionStart hook、无 `install-default-skills.ts`（自动安装已移除、按需保留）。 3. 量化主流程冒烟：按 `direct-quant-eval` / `deploy-export` 技能跑一遍 eval/deploy，产物正常。 ## 文档更新 - 新增 `.agents/**`、`scripts/init-agent.sh`。 - 更新 `.gitignore`。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!148	3 天前

LongCat Casebook

这一页是 LongCat 系列总览页，不是具体模型个案。通用坑先读 L1 跨网络 + L2 结构家族。

系列概览

当前已覆盖模型：LongCat-Flash-Lite、LongCat-Next
典型结构特点：ngram_embeddings 输入路径、双 self-attn 分支、双 dense MLP 分支，以及一条 MoE shortcut 路径
在当前仓库里最接近的参考：Qwen 的 dense/MoE wrapper，以及公共的 BaseModel blockwise 工作流

默认参考路径

新模型进入时优先参考：longcat_lite.py
LongCat-Next 的 text-only 兼容入口在：longcat_next.py
优先复用：BaseModel、PtqUnit、QuantLinear、QuantGatedMLP
除非模型结构无法在 amct_pytorch/common/models/llm 中表达，否则不要优先改 workflow 或 solver

通用适配经验

这个系列最需要单独处理的是输入路径，因为 LongCat 依赖 ngram_embeddings
decoder block 不是简单的单 attn + mlp 结构，所以 PTQ unit 的拆分和 hook 路由都需要模型专属映射
当 qk/v head dim 不对称时，优先固定到更稳的 eager attention backend
如果顶层 trust_remote_code 模型额外依赖 flash_attn 等运行时，而 blockwise PTQ 只需要 text-only backbone，可以在 adapter 内直接实例化动态模块里的文本模型类
遇到 checkpoint 和默认 config 构造的 lm_head 形状不一致时，优先在 adapter 内做最小 patch，不要把兼容逻辑扩散到 workflow

通用量化经验

先拿 blockwise Wikitext PPL 的 BF16 baseline，并把它作为这个系列的唯一对比基线
LongCat-Flash-Lite 的第一轮 a8w8-int8 直转量化在 Wikitext PPL 上已经接近无损
LongCat-Next 目前只完成了 model-adapter 闭环，量化方案还没有正式归档
在判断精度之前，先确认 Ascend 运行时环境和 activation quant dtype 接线没有问题

常见问题

问题 2：int 直转量化一开始就报错，或者激活行为明显异常
- 优先检查：ActivationQuantizer 是否传了 is_act=True，以及 activation quant 是否错误地把带符号值当成纯正数处理
问题 3：LongCat-Next 顶层模型不能直接空载
- 优先检查：是否误走了带 flash_attn 依赖的顶层多模态模型，而没有切到 text-only 的 modeling_longcat_ngram 路径

已有个案（同结构已合并）

longcat — LongcatLite + LongcatNext：LongCat-Flash-Lite（首个，ngram 输入）+ LongCat-Next（LongcatNext(LongcatLite)，唯一 delta = empty_weights_model 切 text-only backbone）