| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
A5文件挂载与环境变量设置 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !324 merge A5_mouth into master A5文件挂载与环境变量设置 Created-by: weixin_63825906 Commit-by: weixin_63825906 Merged-by: towncharlie Description: ## **1. 合入背景** >A5存在较多额外环境配置,要写入启动脚本以减少手动修改的操作 Fixes [#205](https://gitcode.com/Ascend/MindIE-PyMotor/issues/205) ## **2. 修改内容** > 在A5环境下,新增pod挂载路径以及环境变量,以确保服务正常运行 ## **3. 资料变更** > 不涉及 ## **4. 接口变更** > 不涉及 ## **5. 测试结果** > A5 服务拉起后正常推理  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!324 | 4 天前 | |
[feat] Add patching support for vLLM with shuffle option and update deployment scripts Co-authored-by: c00951058<chenchaofeng5@huawei.com> # message auto-generated for no-merge-commit merge: !284 merge c00951058 into master [feat] Add patching support for vLLM with shuffle option and update deployment scripts Created-by: qq_40172610 Commit-by: c00951058 Merged-by: towncharlie Description: ## **1. 合入背景** - 大模型(如 DeepSeek V3.1)在多 NPU / 多 rank 并行加载 safetensors 权重时,各进程默认按相同顺序读取 checkpoint 文件,容易造成共享存储 I/O 热点,拉长 Pod 冷启动时间。 - 当前PyMotor 镜像内 vLLM 0.20.2 尚未 upstream 合入 safetensors 加载 shuffle 能力,需在 Engine Pod 启动 vLLM 前 以 runtime patch 方式注入该优化。 - 本 PR 参照现有 patch/patch_apply.py 的补丁机制,新增 safetensors shuffle 补丁链路,与 boot.sh 启动流程及 motor-config ConfigMap 下发机制配合,无需重新打镜像即可生效。 ## **2. 修改内容** - 新增 patch/patch_apply_shuffle_safetensors.py 运行时补丁入口脚本,仅在 vLLM 版本为 0.20.2 时执行,其他版本 skip 并返回 0。 支持幂等:已 patch 或 patch 失败但目标文件已含 shuffle_safetensors_files 且语法有效时跳过。 - 新增 3 个 vLLM patch 文件(patch/vllm_shuffle_*.patch) - 修改 examples/deployer/startup/boot.sh 在 prefill / decode / union / encode / SINGLE_CONTAINER 角色启动 engine 前,调用 patch_apply_shuffle_safetensors.py。 controller / coordinator 等角色不受影响。 - 修改 examples/deployer/lib/generator/k8s_utils.py 在 create_motor_config_configmap() 中,将上述 1 个脚本 + 3 个 .patch 文件一并打入 motor-config ConfigMap,挂载到 Pod /mnt/configmap,与 boot.sh 中 $SCRIPT_DIR 路径一致。 ## **3. 资料变更** > 不涉及 ## **4. 接口变更** > 不涉及 ## **5. 测试结果** - 功能验证:服务正常 Ready,OpenAI 兼容接口推理正常,无权重加载相关报错。 - 性能验证:对比 patch 前后 Pod 从启动到模型加载完成耗时  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!284 | 16 天前 | |
feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330 | 4 天前 | |
[feature] Motor适配容器快恢, 支持混部/大EP场景 Co-authored-by: lbr711<liuboru1@huawei.com> # message auto-generated for no-merge-commit merge: !108 merge snapshot_engine_server into master [feature] Motor适配容器快恢, 支持混部/大EP场景 Created-by: lbr711 Commit-by: lbr711 Merged-by: towncharlie Description: ## **1. 合入背景** Motor适配容器快恢, 支持混部/大EP场景 Fixes #77 ## **2. 修改内容** 1. pymotor支持配置容器快照功能(开关默认关) 2. 配置容器快照时,容器内服务ready后engineserver自动调用engine suspend(device侧快照保存/保存运行时权重),接着容器进入稳态点 3. 可通过pod readiness探针探测是否进入稳态点 4. 容器从快照恢复后,nodemanager以新身份向controller注册,engineserver自动调用engine resume(device侧快照恢复/重建进程组/重建通信域/重新加载运行时权重/重捕获图), 接着容器进入可服务状态 ## **3. 资料变更** 不涉及 ## **4. 接口变更** 业务面新增接口: /suspend /resume ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!108 | 18 天前 | |
feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330 | 4 天前 | |
feat: pymotor支持CP + parallel_config重构 Co-authored-by: yilunh<hanyilun1@huawei.com> Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !111 merge pcpdcp into master feat: pymotor支持CP + parallel_config重构 Created-by: yilunh Commit-by: yilunh;tobking Merged-by: towncharlie Description: ## **1. 合入背景** 1、pymotor支持cp配置 2、重构parallel_config,支持引擎原生并行配置参数在engine_config中解析,同时前向兼容model_config fixes [#78](https://gitcode.com/Ascend/MindIE-PyMotor/issues/78) ## **2. 修改内容** 1、支持CP配置: instance.py扩展parallelConfig,支持pcp_size配置,重计算world_size nodemanager.py调整并行相关配置,修改打印 controller装配:修改instance_assembler.py组装实例时world_size计算公式 daemon.py修改nodemanager守护进程中的local_world_size计算 endpoint.py支持cp相关字段 vllm_config.py新增常量配置对接CP 2、重构parallel_config: 配置架构从 model_config /parallel_config 双配置块统一迁移为以 engine_config 为核心,新增配置解析器统一处理,兼容旧配置,优先级engine_config > model_config  ## **3. 资料变更** 适配cp配置 user_config接口变更,engine_config中支持引擎原生参数,逐步日落model_config ## **4. 接口变更** user_config的并行配置中新增pcp_size和cp_kv_cache_interleave_size参数 user_config接口变更,engine_config中支持引擎原生参数,逐步日落model_config ## **5. 测试结果**     ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!111 | 1 个月前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 4 天前 | ||
| 16 天前 | ||
| 4 天前 | ||
| 18 天前 | ||
| 4 天前 | ||
| 1 个月前 |