| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
refactor: 支持online多batch推理 Co-authored-by: pihuali<pihuali@hisilicon.com> # message auto-generated for no-merge-commit merge: !315 merge refactor into master refactor: 支持online多batch推理 Created-by: hiliPP Commit-by: pihuali Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述 请提供此Pull Request的预期功能,以方便检视。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [ ] 文档内容更新 ## 如何测试 描述测试这个变更的步骤,包括哪些文件需要被修改。 ## Checklist: - [ ] 我的代码遵循这个项目的代码风格 - [ ] 我已经自己测试过我的代码 - [ ] 我已经更新了相应的文档 - [ ] 我已经在标题中正确使用了类型标签(例如: feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!315 | 1 个月前 | |
[Refactor] adapt DeepSeek V3.2 model to framework Co-authored-by: root<root@liteserver-hps-2f1a-00004.novalocal> Co-authored-by: llllim<lijiaming60@huawei.com> # message auto-generated for no-merge-commit merge: !509 merge adapt_dsv32_final into master [Refactor] adapt DeepSeek V3.2 model to framework Created-by: llllim Commit-by: llllim;root Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述 本次 PR 主要完成 DeepSeek V3.2 Exp 到统一推理框架的迁移,核心改动如下: - 新增 models/deepseek_v3_2_exp 统一框架模型目录,迁移原 ModelRunner 路径下的 DSV3.2 Exp 模型实现、配置、README 和启动方式,并删除旧 models/deepseek-v3.2-exp 路径。更新 DSV3.2 Exp README 和配置说明,统一按 Docker 镜像方式进行环境准备,更新 CANN 9.0.0 / PyTorch 2.8.0 / torch_npu 2.8.0 相关版本说明,并更新DSV3.2 Exp 专用镜像链接与版本信息。 - 模型 forward 主路径切换为直接消费框架侧 forward_metadata,支持 TND packed sequence 输入,移除旧 BS 桥接和 legacy prefill_mini_batch 逻辑;prefill 组 batch 改由框架侧 max_prefill_tokens 控制。 - 适配 DSV3.2 Exp 在统一框架下的 eager、ge_graph、npugraph_ex 路径,补齐 MTP、多流、cache compile、force EPLB 等能力的框架对接。 - 适配 DSV3.2 Exp prefill context parallel: - 框架侧构造 PrefillCPMetaData,按 request pad 到 2 * cp_size 后做 zigzag 切分; - 模型侧完成 CP attention、KV all-gather restore、CP 输出 restore; - offline CP 下仅 owner rank 持久化本 rank decode 负责的 KV; - online prefill CP 下每个 CP rank 持久化全量 KV,并由 cp_rank=0 参与 PD KV 传输。 - 当前 CP 阶段约束:cp_size == world_size,且 attn_tp_size == 1。 - 适配 CP + MTP: - 主模型与 MTP 小模型对齐 CP prefill 输入语义; - 修复 MTP 多 token 输出时 EOS 不在最后一个 token 导致无法及时停止的问题; - 修复短序列 decode MTP 下 position_ids 可能为负的问题。 - 适配 offline KV cache offload: - full KV cache 接入框架 KVCacheManager,支持 swapped memory 管理; - DSV3.2 专用 selected KV、selection 状态等 workspace 仍由模型侧 offload cache 管理; - 当前 KV cache offload 限定仅支持 offline 场景。 - 补齐 online PD 分离配置与最小 CP 链路: - online prefill 支持 CP; - decode 侧仍按非 CP 执行; - 当前 PD CP 方案采用 cp_rank=0 发送全量 KV 的方式。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [x] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 描述测试这个变更的步骤,包括哪些文件需要被修改。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!509 | 2 天前 | |
[Refactor] adapt DeepSeek V3.2 model to framework Co-authored-by: root<root@liteserver-hps-2f1a-00004.novalocal> Co-authored-by: llllim<lijiaming60@huawei.com> # message auto-generated for no-merge-commit merge: !509 merge adapt_dsv32_final into master [Refactor] adapt DeepSeek V3.2 model to framework Created-by: llllim Commit-by: llllim;root Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述 本次 PR 主要完成 DeepSeek V3.2 Exp 到统一推理框架的迁移,核心改动如下: - 新增 models/deepseek_v3_2_exp 统一框架模型目录,迁移原 ModelRunner 路径下的 DSV3.2 Exp 模型实现、配置、README 和启动方式,并删除旧 models/deepseek-v3.2-exp 路径。更新 DSV3.2 Exp README 和配置说明,统一按 Docker 镜像方式进行环境准备,更新 CANN 9.0.0 / PyTorch 2.8.0 / torch_npu 2.8.0 相关版本说明,并更新DSV3.2 Exp 专用镜像链接与版本信息。 - 模型 forward 主路径切换为直接消费框架侧 forward_metadata,支持 TND packed sequence 输入,移除旧 BS 桥接和 legacy prefill_mini_batch 逻辑;prefill 组 batch 改由框架侧 max_prefill_tokens 控制。 - 适配 DSV3.2 Exp 在统一框架下的 eager、ge_graph、npugraph_ex 路径,补齐 MTP、多流、cache compile、force EPLB 等能力的框架对接。 - 适配 DSV3.2 Exp prefill context parallel: - 框架侧构造 PrefillCPMetaData,按 request pad 到 2 * cp_size 后做 zigzag 切分; - 模型侧完成 CP attention、KV all-gather restore、CP 输出 restore; - offline CP 下仅 owner rank 持久化本 rank decode 负责的 KV; - online prefill CP 下每个 CP rank 持久化全量 KV,并由 cp_rank=0 参与 PD KV 传输。 - 当前 CP 阶段约束:cp_size == world_size,且 attn_tp_size == 1。 - 适配 CP + MTP: - 主模型与 MTP 小模型对齐 CP prefill 输入语义; - 修复 MTP 多 token 输出时 EOS 不在最后一个 token 导致无法及时停止的问题; - 修复短序列 decode MTP 下 position_ids 可能为负的问题。 - 适配 offline KV cache offload: - full KV cache 接入框架 KVCacheManager,支持 swapped memory 管理; - DSV3.2 专用 selected KV、selection 状态等 workspace 仍由模型侧 offload cache 管理; - 当前 KV cache offload 限定仅支持 offline 场景。 - 补齐 online PD 分离配置与最小 CP 链路: - online prefill 支持 CP; - decode 侧仍按非 CP 执行; - 当前 PD CP 方案采用 cp_rank=0 发送全量 KV 的方式。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [x] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 描述测试这个变更的步骤,包括哪些文件需要被修改。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!509 | 2 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 1 个月前 | ||
| 2 天前 | ||
| 2 天前 |