cann-recipes-infer/executor/offline · CANN/cann-recipes-infer - AtomGit

cann-robot[Refactor] adapt DeepSeek V3.2 model to framework

文件	最后提交记录	最后更新时间
__init__.py	refactor: 支持online多batch推理 Co-authored-by: pihuali<pihuali@hisilicon.com> # message auto-generated for no-merge-commit merge: !315 merge refactor into master refactor: 支持online多batch推理 Created-by: hiliPP Commit-by: pihuali Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述请提供此Pull Request的预期功能，以方便检视。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 重构（即不是新增功能，也不是修改bug的代码变动） - [ ] 构建过程或辅助工具的变动 - [ ] 文档内容更新 ## 如何测试描述测试这个变更的步骤，包括哪些文件需要被修改。 ## Checklist: - [ ] 我的代码遵循这个项目的代码风格 - [ ] 我已经自己测试过我的代码 - [ ] 我已经更新了相应的文档 - [ ] 我已经在标题中正确使用了类型标签（例如：`feat`, `fix`, `refactor`, `docs`, `test`） ## 其他信息在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!315	1 个月前
infer.py	[Refactor] adapt DeepSeek V3.2 model to framework Co-authored-by: root<root@liteserver-hps-2f1a-00004.novalocal> Co-authored-by: llllim<lijiaming60@huawei.com> # message auto-generated for no-merge-commit merge: !509 merge adapt_dsv32_final into master [Refactor] adapt DeepSeek V3.2 model to framework Created-by: llllim Commit-by: llllim;root Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述本次 PR 主要完成 DeepSeek V3.2 Exp 到统一推理框架的迁移，核心改动如下： - 新增 `models/deepseek_v3_2_exp` 统一框架模型目录，迁移原 ModelRunner 路径下的 DSV3.2 Exp 模型实现、配置、README 和启动方式，并删除旧 `models/deepseek-v3.2-exp` 路径。更新 DSV3.2 Exp README 和配置说明，统一按 Docker 镜像方式进行环境准备，更新 CANN 9.0.0 / PyTorch 2.8.0 / torch_npu 2.8.0 相关版本说明，并更新DSV3.2 Exp 专用镜像链接与版本信息。 - 模型 forward 主路径切换为直接消费框架侧 `forward_metadata`，支持 TND packed sequence 输入，移除旧 BS 桥接和 legacy `prefill_mini_batch` 逻辑；prefill 组 batch 改由框架侧 `max_prefill_tokens` 控制。 - 适配 DSV3.2 Exp 在统一框架下的 eager、ge_graph、npugraph_ex 路径，补齐 MTP、多流、cache compile、force EPLB 等能力的框架对接。 - 适配 DSV3.2 Exp prefill context parallel： - 框架侧构造 `PrefillCPMetaData`，按 request pad 到 `2 * cp_size` 后做 zigzag 切分； - 模型侧完成 CP attention、KV all-gather restore、CP 输出 restore； - offline CP 下仅 owner rank 持久化本 rank decode 负责的 KV； - online prefill CP 下每个 CP rank 持久化全量 KV，并由 `cp_rank=0` 参与 PD KV 传输。 - 当前 CP 阶段约束：`cp_size == world_size`，且 `attn_tp_size == 1`。 - 适配 CP + MTP： - 主模型与 MTP 小模型对齐 CP prefill 输入语义； - 修复 MTP 多 token 输出时 EOS 不在最后一个 token 导致无法及时停止的问题； - 修复短序列 decode MTP 下 position_ids 可能为负的问题。 - 适配 offline KV cache offload： - full KV cache 接入框架 `KVCacheManager`，支持 swapped memory 管理； - DSV3.2 专用 selected KV、selection 状态等 workspace 仍由模型侧 offload cache 管理； - 当前 KV cache offload 限定仅支持 offline 场景。 - 补齐 online PD 分离配置与最小 CP 链路： - online prefill 支持 CP； - decode 侧仍按非 CP 执行； - 当前 PD CP 方案采用 `cp_rank=0` 发送全量 KV 的方式。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [x] 重构（即不是新增功能，也不是修改bug的代码变动） - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试描述测试这个变更的步骤，包括哪些文件需要被修改。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签（例如：`feat`, `fix`, `refactor`, `docs`, `test`） ## 其他信息在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!509	2 天前
offline_inference.py	[Refactor] adapt DeepSeek V3.2 model to framework Co-authored-by: root<root@liteserver-hps-2f1a-00004.novalocal> Co-authored-by: llllim<lijiaming60@huawei.com> # message auto-generated for no-merge-commit merge: !509 merge adapt_dsv32_final into master [Refactor] adapt DeepSeek V3.2 model to framework Created-by: llllim Commit-by: llllim;root Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述本次 PR 主要完成 DeepSeek V3.2 Exp 到统一推理框架的迁移，核心改动如下： - 新增 `models/deepseek_v3_2_exp` 统一框架模型目录，迁移原 ModelRunner 路径下的 DSV3.2 Exp 模型实现、配置、README 和启动方式，并删除旧 `models/deepseek-v3.2-exp` 路径。更新 DSV3.2 Exp README 和配置说明，统一按 Docker 镜像方式进行环境准备，更新 CANN 9.0.0 / PyTorch 2.8.0 / torch_npu 2.8.0 相关版本说明，并更新DSV3.2 Exp 专用镜像链接与版本信息。 - 模型 forward 主路径切换为直接消费框架侧 `forward_metadata`，支持 TND packed sequence 输入，移除旧 BS 桥接和 legacy `prefill_mini_batch` 逻辑；prefill 组 batch 改由框架侧 `max_prefill_tokens` 控制。 - 适配 DSV3.2 Exp 在统一框架下的 eager、ge_graph、npugraph_ex 路径，补齐 MTP、多流、cache compile、force EPLB 等能力的框架对接。 - 适配 DSV3.2 Exp prefill context parallel： - 框架侧构造 `PrefillCPMetaData`，按 request pad 到 `2 * cp_size` 后做 zigzag 切分； - 模型侧完成 CP attention、KV all-gather restore、CP 输出 restore； - offline CP 下仅 owner rank 持久化本 rank decode 负责的 KV； - online prefill CP 下每个 CP rank 持久化全量 KV，并由 `cp_rank=0` 参与 PD KV 传输。 - 当前 CP 阶段约束：`cp_size == world_size`，且 `attn_tp_size == 1`。 - 适配 CP + MTP： - 主模型与 MTP 小模型对齐 CP prefill 输入语义； - 修复 MTP 多 token 输出时 EOS 不在最后一个 token 导致无法及时停止的问题； - 修复短序列 decode MTP 下 position_ids 可能为负的问题。 - 适配 offline KV cache offload： - full KV cache 接入框架 `KVCacheManager`，支持 swapped memory 管理； - DSV3.2 专用 selected KV、selection 状态等 workspace 仍由模型侧 offload cache 管理； - 当前 KV cache offload 限定仅支持 offline 场景。 - 补齐 online PD 分离配置与最小 CP 链路： - online prefill 支持 CP； - decode 侧仍按非 CP 执行； - 当前 PD CP 方案采用 `cp_rank=0` 发送全量 KV 的方式。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [x] 重构（即不是新增功能，也不是修改bug的代码变动） - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试描述测试这个变更的步骤，包括哪些文件需要被修改。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签（例如：`feat`, `fix`, `refactor`, `docs`, `test`） ## 其他信息在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!509	2 天前