Star246

Star246

cann-robotfeat: 量化agent引入

0ecfdf4c创建于 4 天前历史提交

<模型名> · 系列 · 结构 <dense/moe/mla-moe/vl-moe/混合>

速览：<adapter 路径 / 是否纯复用主链 / 首推方案+delta / 核心坑或状态——一句话>。<同源类/纯子类的不同尺寸合并到一个文件，多尺寸分小节>。 触发信号：<config/checkpoint 上可检测的特征——据此判断属哪些 L2 家族>。读 L2 ../structure-family-pitfalls.md（命中家族）+ L1 ../cross-model-pitfalls.md。（路径以个案实际所在 <vendor>/ 子目录为基准，即 ../。）

结构与适配要点

<架构判断：decoder 类型、是否 MoE、attention 形态、关键 config、特别之处（vs 系列默认路径）>。
参考与差异：最近参考 <案例>；关键差异 <本案不同点>。
复用：<复用的仓内抽象>。新增：<模型专属实现 / “无（纯复用）”>。
起步复用清单（下一条同系列/同结构）：<从哪些文件/类起步 + 首轮起步方案>。

适配验证结论

标准三步闭环（BF16 baseline → 关闭量化浮点等价 → 最小 PTQ smoke）<是否全部通过>。
模型特定结论：<哪些部分对齐/敏感、关闭量化等价结果、最小 PTQ smoke 用的单元>。

关键陷阱（L3 模型专属；通用见 L1/L2）

只记本模型独有、不可迁移的坑（L3）。跨网络通用的引 L1 ../cross-model-pitfalls.md、结构家族通用的引 L2 ../structure-family-pitfalls.md（本案是否为其首遇例）；同家族 ≥2 模型复现的坑应上抽到 L2，别留在这里重复。agent 环境配置类、一次性小问题不入库。

<L3 陷阱一句话> —— 现象：<报错/异常>。根因：<本模型独有原因>。处理：<修法>。教训：<一句>。
<通用坑> → 见 L1 ../cross-model-pitfalls.md · <条目> / L2 ../structure-family-pitfalls.md · <家族>。

量化结论（+ 性能注意，可选）

BF16 baseline（seq_len=4096）；首轮直转 <方案> W?A?-（<粒度>，<是否 PTQ>）delta=<值>（<是否达标>）。已落地粒度 / 升级路径。
性能注意（可选，无则删）：<如 MoE per-expert 小 M_eff 存疑、须 infer MoEGMM 实测>。

适配建议（下次同系列/同结构）

先参考：<本案 + 最近参考案例>。
先做什么：<抓 config.json / index.json、小 config 空载 smoke、逐层等价…>。
不建议：<反模式，如靠 architectures 命名推断 checkpoint 结构、直接抄前代 quant 模块、一上来裁 kv_cache…>。

精度速查表

ppl 口径 seq_len=4096。MXFP 双值为两次评测口径 a/b。

数据类型	量化配置	量化算法	ppl
BF16	无	无