| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[feature]Pymotor支持prestop优雅退出 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !244 merge stopstop into master [feature]Pymotor支持prestop优雅退出 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** 为 Engine Pod引入 Kubernetes PreStop 优雅下线能力,避免缩容/滚动更新时强行杀进程导致在途请求中断。 fixes [#161](https://gitcode.com/Ascend/MindIE-PyMotor/issues/161) ## **2. 修改内容** - Deploy 侧:新增 prestop.sh / prestop.py,打入 ConfigMap;Engine YAML 增加 lifecycle.preStop,terminationGracePeriodSeconds由 10s → 30s;delete.sh 改为轮询 Pod 是否真正消失 - NodeManager:新增 POST /node-manager/pause(将 endpoint 标为 PAUSED,返回 engine_mgmt_addrs)和 POST /node-manager/resume(预留);心跳刷新时保留手动 PAUSED 状态 - Controller:新增 InsStatus.PAUSED 状态机与 INSTANCE_PAUSED / INSTANCE_RESUMED 事件,向 Coordinator 推送 PAUSE / RESUME - Coordinator:新增 _paused_pool,暂停实例不再参与新请求调度,已在跑请求可继续完成 - 排空检测:轮询本 Pod 内 engine 的 http://<mgmt_addr>/metrics,累加 num_requests_waiting + num_requests_running 至 0 后退出;prestop.sh 最后 kill -TERM NM 主进程完成容器退出  ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!244 | 19 天前 | |
[feature]Pymotor支持prestop优雅退出 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !244 merge stopstop into master [feature]Pymotor支持prestop优雅退出 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** 为 Engine Pod引入 Kubernetes PreStop 优雅下线能力,避免缩容/滚动更新时强行杀进程导致在途请求中断。 fixes [#161](https://gitcode.com/Ascend/MindIE-PyMotor/issues/161) ## **2. 修改内容** - Deploy 侧:新增 prestop.sh / prestop.py,打入 ConfigMap;Engine YAML 增加 lifecycle.preStop,terminationGracePeriodSeconds由 10s → 30s;delete.sh 改为轮询 Pod 是否真正消失 - NodeManager:新增 POST /node-manager/pause(将 endpoint 标为 PAUSED,返回 engine_mgmt_addrs)和 POST /node-manager/resume(预留);心跳刷新时保留手动 PAUSED 状态 - Controller:新增 InsStatus.PAUSED 状态机与 INSTANCE_PAUSED / INSTANCE_RESUMED 事件,向 Coordinator 推送 PAUSE / RESUME - Coordinator:新增 _paused_pool,暂停实例不再参与新请求调度,已在跑请求可继续完成 - 排空检测:轮询本 Pod 内 engine 的 http://<mgmt_addr>/metrics,累加 num_requests_waiting + num_requests_running 至 0 后退出;prestop.sh 最后 kill -TERM NM 主进程完成容器退出  ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!244 | 19 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 19 天前 | ||
| 19 天前 |