逐层量化工作流
用于在基础适配与四步验证通过后,开启按层加载量化路径。
阶段 A:确认是否需要启用
- 用户明确要求逐层量化/逐层加载/懒加载。
- 或 CPU 内存无法全量加载权重。
- 若不满足,保持基础适配流程,不进入本工作流。
阶段 B:逐层改造
- 增加权重映射读取能力(
model.safetensors.index.json)。 - 增加按需读取单层权重能力(按 prefix 过滤)。
- 增加缺层时的按层实例化与加载逻辑。
- 统一
generate_model_visit与generate_model_forward的层遍历来源,确保严格同序。
阶段 C:最小验证
- 可完整遍历所有 decoder 层。
- visit/forward 层序一一对应,无错位。
- 抽样前向无 shape 断裂与异常。
验收规则
- 若阶段 B/C 全通过,可标记“逐层量化改造完成”。
- 若失败,回退到基础适配路径并记录阻塞点(层构造参数、键名映射、模块副作用等)。