towncharliedoc(scale): add ScaleP2D user guide and slim down design doc.

文件	最后提交记录	最后更新时间
lib	A5文件挂载与环境变量设置 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !324 merge A5_mouth into master A5文件挂载与环境变量设置 Created-by: weixin_63825906 Commit-by: weixin_63825906 Merged-by: towncharlie Description: ## 1. 合入背景 >A5存在较多额外环境配置，要写入启动脚本以减少手动修改的操作 Fixes [#205](https://gitcode.com/Ascend/MindIE-PyMotor/issues/205) ## 2. 修改内容 > 在A5环境下，新增pod挂载路径以及环境变量，以确保服务正常运行 ## 3. 资料变更 > 不涉及 ## 4. 接口变更 > 不涉及 ## 5. 测试结果 > A5 服务拉起后正常推理 ![image.png](https://raw.gitcode.com/user-images/assets/9072912/61015e7a-151d-4202-bfb1-0f998445f81e/image.png 'image.png') ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!324	3 天前
log_collect	[feature] Controller FaultTolerance模块支持软件故障上报，与硬件故障共同产生恢复策略 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !147 merge ft_ehance into master [feature] Controller FaultTolerance模块支持软件故障上报，与硬件故障共同产生恢复策略 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## 1. 合入背景 https://gitcode.com/Ascend/MindIE-PyMotor/issues/111 ## 2. 修改内容 https://gitcode.com/Ascend/MindIE-PyMotor/issues/111 bug修复： 1、log_monitor若干bug修复，有删除服务，或者kubelet不可用时的疯狂日志增加 2、删除服务后后台监控日志的进程不会自己退出，导致进程堆积 3、Controller clusterrole，clusterrolebinding等K8S配置没有用namespace区分，导致多个服务产生冲突。 ## 3. 资料变更涉及 ## 4. 接口变更不涉及 ## 5. 测试结果 1、实际2P1D测试，节点互换逻辑无问题 2、修复log采集脚本，实际环境测试，修复了频繁产生冗余日志的问题 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!147	26 天前
patch	[fix] 补丁增加对 vllm 0.22.1 的支持 Co-authored-by: c00951058<chenchaofeng5@huawei.com> # message auto-generated for no-merge-commit merge: !345 merge c00951058 into master [fix] 补丁增加对 vllm 0.22.1 的支持 Created-by: qq_40172610 Commit-by: c00951058 Merged-by: towncharlie Description: ## 1. 合入背景 B071 镜像（mindie-motor-vllm:dev-26.1.0.B071-...）已将 vLLM 升级至 0.22.1。引擎启动时会通过 patch_apply_shuffle_safetensors.py 对 vLLM 源码打 shuffle safetensors 补丁，用于多卡场景下随机化 safetensors 权重文件加载顺序，缓解 I/O 争抢、提升启动速度。本次合入在保持向后兼容的前提下，完成多版本 patch 目录化改造，并新增 0.22.1 适配。 ## 2. 修改内容 2.1 新增 vLLM 0.22.1 补丁文件，在 examples/deployer/patch/0.22.1/ 下新增 3 个 patch。 2.2 重构 patch 目录结构，支持按版本路由，将原 patch/ 根目录下的 3 个 patch 文件按版本拆分到子目录。 2.3 更新补丁应用脚本，修改 examples/deployer/patch/patch_apply_shuffle_safetensors.py。 ## 3. 资料变更不涉及 ## 4. 接口变更不涉及 ## 5. 测试结果清理缓存：sync && echo 3 \| tee /proc/sys/vm/drop_caches 重新拉起服务，测试p/d拉起时长，着重关注权重加载时长。 p拉起时长约6分钟： ![image.png](https://raw.gitcode.com/user-images/assets/9072912/7adb43b9-10ea-4fe3-96a2-2e96a332304c/image.png 'image.png') DeepSeek V3.1 (Worker_DP1_TP0_EP8 pid=963) INFO 06-25 12:19:12 [default_loader.py:400] Loading weights took 152.01 seconds (Worker_DP0_TP0_EP0 pid=962) INFO 06-25 12:19:20 [default_loader.py:400] Loading weights took 161.25 seconds MTP 投机解码 (Worker_DP1_TP0_EP8 pid=963) INFO 06-25 12:19:31 [default_loader.py:400] Loading weights took 7.21 seconds (Worker_DP0_TP0_EP0 pid=962) INFO 06-25 12:19:35 [default_loader.py:400] Loading weights took 6.65 seconds d拉起时长约6分钟： ![image.png](https://raw.gitcode.com/user-images/assets/9072912/743c3c03-034c-417a-a7f3-4bed661451e2/image.png 'image.png') DeepSeek V3.1 (Worker_DP15_EP15 pid=2884) INFO 06-25 12:18:50 [default_loader.py:400] Loading weights took 144.72 seconds ... 省略中间14个。 (Worker_DP0_EP0 pid=2834) INFO 06-25 12:19:13 [default_loader.py:400] Loading weights took 167.43 seconds MTP 投机解码 (Worker_DP2_EP2 pid=2868) INFO 06-25 12:19:27 [default_loader.py:400] Loading weights took 7.91 seconds ...省略中间14个。 (Worker_DP0_EP0 pid=2834) INFO 06-25 12:19:32 [default_loader.py:400] Loading weights took 7.00 seconds ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!345	2 天前
prestop	feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 请<ins>描述修改内容的具体实现</ins>，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR，需要<ins>补充详细设计文档</ins>（说明上下游组件关系、时序图、类图、DFX能力等内容）。 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 > 需体现<ins>测试场景，测试方法以及测试结果</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330	3 天前
probe	feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 请<ins>描述修改内容的具体实现</ins>，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR，需要<ins>补充详细设计文档</ins>（说明上下游组件关系、时序图、类图、DFX能力等内容）。 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 > 需体现<ins>测试场景，测试方法以及测试结果</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330	3 天前
startup	feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 请<ins>描述修改内容的具体实现</ins>，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR，需要<ins>补充详细设计文档</ins>（说明上下游组件关系、时序图、类图、DFX能力等内容）。 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 > 需体现<ins>测试场景，测试方法以及测试结果</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330	3 天前
yaml_template	doc(scale): add ScaleP2D user guide and slim down design doc. Co-authored-by: ylou<louyi6@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge fix/scalep2d_625 into master doc(scale): add ScaleP2D user guide and slim down design doc. Created-by: y1lou Commit-by: ylou Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 请<ins>描述修改内容的具体实现</ins>，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR，需要<ins>补充详细设计文档</ins>（说明上下游组件关系、时序图、类图、DFX能力等内容）。 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 > 需体现<ins>测试场景，测试方法以及测试结果</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!350	2 天前
README.md	[feat] 支持PCP跨机特性 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !203 merge pcp_cross_node into master [feat] 支持PCP跨机特性 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## 1. 合入背景 https://gitcode.com/Ascend/MindIE-PyMotor/issues/141 ## 2. 修改内容 1、注册增加nnode字段，Controller处理DP=1，PCP2，跨机的场景能够正确构造Endpoint 2、Controller下发start cmd默认增加node_rank，按node注册顺序填充 3、EngineServer增加nnode，node_rank处理逻辑。 ## 3. 资料变更涉及 ## 4. 接口变更涉及 ## 5. 测试结果能正确拉起 ![PixPin_2026-06-02_10-45-26.png](https://raw.gitcode.com/user-images/assets/9072912/748c4448-cfc6-45ba-9a67-5bb3d0a9a0f9/PixPin_2026-06-02_10-45-26.png 'PixPin_2026-06-02_10-45-26.png') ![PixPin_2026-06-02_15-07-01.png](https://raw.gitcode.com/user-images/assets/9072912/5c8e76d2-eadd-465d-a524-b67e86055f4e/PixPin_2026-06-02_15-07-01.png 'PixPin_2026-06-02_15-07-01.png') ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!203	25 天前
delete.sh	[bugfix] delete.sh脚本，无论输入namespce是否存在，都会将部署的pod全部删除。 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !335 merge delete_bug_fix into master [bugfix] delete.sh脚本，无论输入namespce是否存在，都会将部署的pod全部删除。 Created-by: weixin_63825906 Commit-by: weixin_63825906 Merged-by: towncharlie Description: ## 1. 合入背景 > 当前delete.sh脚本，无论输入namespce是否存在，都会将部署的pod全部删除。 > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 增加校验，namespace不存在时直接退出脚本 ## 3. 资料变更 > 不涉及 ## 4. 接口变更 > 不涉及 ## 5. 测试结果 > 输入错误namespace，只报错，不杀服务 ![image.png](https://raw.gitcode.com/user-images/assets/9072912/dd403ff8-c227-40ba-afcb-1a1992ba1e53/image.png 'image.png') ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!335	3 天前
deploy.py	【bugfix】启动部署进度条支持新特性混部 Co-authored-by: zhoujing101<zhoujing101@huawei.com> # message auto-generated for no-merge-commit merge: !265 merge EPD_2 into master 【bugfix】启动部署进度条支持新特性混部 Created-by: zhoujing101 Commit-by: zhoujing101 Merged-by: towncharlie Description: ## 1. 合入背景 [#154](https://gitcode.com/Ascend/MindIE-PyMotor/issues/154) ## 2. 修改内容适配新特性混布部署： ![image.png](https://raw.gitcode.com/user-images/assets/9072912/850bddf2-fa4e-4571-bb00-0b264ef87e37/image.png 'image.png') ## 3. 资料变更 “不涉及”。 ## 4. 接口变更 “不涉及”。 ## 5. 测试结果 ![Snipaste_2026-06-09_21-08-23.jpg](https://raw.gitcode.com/user-images/assets/9072912/1c16318f-12ee-4fe2-b28b-36373a7fe38d/Snipaste_2026-06-09_21-08-23.jpg 'Snipaste_2026-06-09_21-08-23.jpg') ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!265	17 天前
requirements.txt	【部署优化】增加服务拉起过程中的可观测进度条 Co-authored-by: zhoujing101<zhoujing101@huawei.com> # message auto-generated for no-merge-commit merge: !228 merge EPD_2 into master 【部署优化】增加服务拉起过程中的可观测进度条 Created-by: zhoujing101 Commit-by: zhoujing101 Merged-by: towncharlie Description: ## 1. 合入背景 [#154](https://gitcode.com/Ascend/MindIE-PyMotor/issues/154) ## 2. 修改内容增加服务拉起过程中的可观测进度条 ## 3. 资料变更 “不涉及”。 ## 4. 接口变更 “不涉及”。 ## 5. 测试结果拉起pod后会自动检测服务启动进度： ![Snipaste_2026-06-05_09-23-51-1.jpg](https://raw.gitcode.com/user-images/assets/9072912/5104f878-bc34-4ac8-af69-1ea7b62e9886/Snipaste_2026-06-05_09-23-51-1.jpg 'Snipaste_2026-06-05_09-23-51-1.jpg') 进度条30%-80%对应 `加载模型权重的百分比/2+30%`。可以通过增加 `--nostep` 参数不显示拉起服务的进度条。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!228	19 天前
show_log.sh	[feature] Controller FaultTolerance模块支持软件故障上报，与硬件故障共同产生恢复策略 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !147 merge ft_ehance into master [feature] Controller FaultTolerance模块支持软件故障上报，与硬件故障共同产生恢复策略 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## 1. 合入背景 https://gitcode.com/Ascend/MindIE-PyMotor/issues/111 ## 2. 修改内容 https://gitcode.com/Ascend/MindIE-PyMotor/issues/111 bug修复： 1、log_monitor若干bug修复，有删除服务，或者kubelet不可用时的疯狂日志增加 2、删除服务后后台监控日志的进程不会自己退出，导致进程堆积 3、Controller clusterrole，clusterrolebinding等K8S配置没有用namespace区分，导致多个服务产生冲突。 ## 3. 资料变更涉及 ## 4. 接口变更不涉及 ## 5. 测试结果 1、实际2P1D测试，节点互换逻辑无问题 2、修复log采集脚本，实际环境测试，修复了频繁产生冗余日志的问题 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!147	26 天前

Deployer 部署工具

本目录包含 PD disaggregation 服务的部署脚本与配置模板，用于在集群中部署 Controller、Coordinator、Engine 等组件。

使用说明

本目录仅提供部署所需的脚本与示例配置。完整的部署流程、环境要求、配置说明及故障排查请参考以下文档：

👉 PD Disaggregation 完整部署指南

建议在正式部署前先阅读上述文档，按文档完成环境准备与配置后再使用本目录中的工具进行部署。

deploy.py 使用方法

参数说明

参数	简写	说明
`--config_dir`	`--dir`	配置文件所在目录，目录下需包含 `user_config.json` 和 `env.json`
`--user_config_path`	`--config`	用户配置文件路径，与 `--env` 必须同时指定
`--env_config_path`	`--env`	环境配置文件路径，与 `--config` 必须同时指定
`--update_config`	-	仅更新 ConfigMap，不重新部署
`--update_instance_num`	-	根据配置扩缩容实例数量

使用方式

方式一：指定配置目录（推荐）

python deploy.py --config_dir ../infer_engines/vllm

程序会自动从指定目录下读取 user_config.json 和 env.json。

方式二：单独指定配置文件

python deploy.py --config ../infer_engines/vllm/user_config.json --env ../infer_engines/vllm/env.json

方式三：混合使用

python deploy.py --config_dir ../infer_engines/vllm --config /path/to/custom_user_config.json --env /path/to/custom_env.json

当同时指定 --config_dir 和 --config/--env 时，以 --config 和 --env 为准。

其他操作

更新配置

python deploy.py --config_dir ../infer_engines/vllm --update_config

仅更新集群中的 ConfigMap，不重新部署服务。

扩缩容实例

python deploy.py --config_dir ../infer_engines/vllm --update_instance_num

根据 user_config.json 中的 p_instances_num 和 d_instances_num 进行实例扩缩容。

配置文件说明

配置文件位于 examples/infer_engines/ 目录下，根据引擎类型和模型选择对应的配置：

examples/infer_engines/
├── vllm/                    # vLLM 引擎配置
│   ├── user_config.json     # 快速启动用户配置
│   ├── env.json             # 快速启动环境变量配置
│   └── models/              # 特定模型配置
│       └── deepseek/
│           └── v3_1/
│               ├── user_config.json
│               └── env_v3_1_A2_EP32.json
└── ...

user_config.json

包含服务部署配置，主要字段：

motor_deploy_config: 部署相关配置（实例数、镜像、部署模式等）
motor_controller_config: Controller 组件配置
motor_coordinator_config: Coordinator 组件配置
motor_engine_prefill_config: Prefill 引擎配置
motor_engine_decode_config: Decode 引擎配置
kv_cache_pool_config: KV 缓存池配置

env.json

包含环境变量配置，主要字段：

motor_common_env: 公共环境变量
motor_controller_env: Controller 环境变量
motor_coordinator_env: Coordinator 环境变量
motor_engine_prefill_env: Prefill 引擎环境变量
motor_engine_decode_env: Decode 引擎环境变量

参考示例

如需具体模型的拉起与配置示例，可参考仓库中的 examples/infer_engines/ 目录：

👉 examples/infer_engines 目录

该目录下提供多种场景的参考配置与脚本，便于按实际模型进行部署与调优。

Motor 自动管理的 vLLM 原生参数

以下 vLLM 原生 CLI 参数由 PyMotor 在注册、组装、拉起过程中自动推导和注入，无需在 engine_config 中手动指定：

参数	自动管理方式
`data-parallel-address`	Controller 根据组装结果确定 master DP 节点 IP，通过 `StartCmdMsg.master_dp_ip` → `--master-dp-ip` 传入 EngineServer
`data-parallel-rank`	由 Endpoint ID 决定，NodeManager Daemon 以 `--dp-rank` 传入 EngineServer
`node-rank`	Controller 按 NodeManager 注册先后顺序分配（先注册 = 主节点 rank 0），通过 `StartCmdMsg.node_rank` → `--node-rank` 传入 EngineServer
`master-addr`	EngineServer 在检测到跨节点 PCP 模式（`nnodes > 1` 且 `master-port` 存在）时，自动将 `master-dp-ip` 作为 `--master-addr` 注入 vLLM
`headless`	EngineServer 在跨节点 PCP 模式下，对 `node-rank != 0` 的从节点自动追加 `--headless`

注意：跨节点 PCP 场景下，用户仅需在 engine_config 中配置 nnodes 和 master-port，其余参数由 Motor 自动处理。

CLI 参数与 engine_config 键名的完整映射关系详见：

👉 CLI 参数与 engine_config 映射指南