| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
update license Co-authored-by: y1lou<louyi6@huawei.com> # message auto-generated for no-merge-commit merge: !185 merge update_license into master update license Created-by: y1lou Commit-by: y1lou Merged-by: ascend-robot Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-pyMotor!185 | 5 个月前 | |
[fix] 修复PAUSED实例心跳超时转为DELETED后,Coordinator侧清理相关实例 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !280 merge stopstop into master [fix] 修复PAUSED实例心跳超时转为DELETED后,Coordinator侧清理相关实例 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** prestop 流程中,PAUSED 实例心跳超时后,Controller 将其状态转为 DELETED 并通知 INSTANCE_REMOVED,但存在两处遗漏导致 Coordinator 侧 paused_pool 无法清理: 1、 EventPusher 未处理 INSTANCE_REMOVED — 该事件直接走 else: return,Coordinator 永远收不到 DEL 通知 2、coordinator中的_delete_instances() 未检查 _paused_pool — 即使收到 DEL,也只检查 _unavailable_pool 和 _available_pool,paused_pool 中的实例无法被删除 fixes [#180](https://gitcode.com/Ascend/MindIE-PyMotor/issues/180) ## **2. 修改内容** 1、motor/controller/core/event_pusher.py:新增 INSTANCE_REMOVED 事件处理,将其转换为 EventType.DEL 发送给 Coordinator 2、motor/coordinator/domain/instance_manager.py:_delete_instances() 新增对 _paused_pool 的检查和清理,插入在 _unavailable_pool 和 _available_pool 检查之间  ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!280 | 20 天前 | |
fix: prevent register and reregister pods from being assembled together Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !371 merge register_fix into master fix: prevent register and reregister pods from being assembled together Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** register和reregister在特殊情况下会混装,导致注册异常【每节点8卡,D实例需要16卡, 即2 pod, pod0 register: 8/16, pod1: reregister: 16/16,由于是reregister的,不会下发start命令,出现问题】 ## **2. 修改内容** 1、修复混装问题,register只能和register的pod进行组装,reregister同理 2、补充测试用例拦截 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!371 | 4 小时前 | |
[fix] 适配A5 硬件故障信息configmap Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !359 merge cm_a5_adapter into master [fix] 适配A5 硬件故障信息configmap Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** A5 configmap与A2 A3不同,需要适配,否则故障无法解析 ## **2. 修改内容** 1、补充对950代际configmap变化的解析适配 2、补充相应测试用例 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!359 | 1 天前 | |
[feature]Pymotor支持prestop优雅退出 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !244 merge stopstop into master [feature]Pymotor支持prestop优雅退出 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** 为 Engine Pod引入 Kubernetes PreStop 优雅下线能力,避免缩容/滚动更新时强行杀进程导致在途请求中断。 fixes [#161](https://gitcode.com/Ascend/MindIE-PyMotor/issues/161) ## **2. 修改内容** - Deploy 侧:新增 prestop.sh / prestop.py,打入 ConfigMap;Engine YAML 增加 lifecycle.preStop,terminationGracePeriodSeconds由 10s → 30s;delete.sh 改为轮询 Pod 是否真正消失 - NodeManager:新增 POST /node-manager/pause(将 endpoint 标为 PAUSED,返回 engine_mgmt_addrs)和 POST /node-manager/resume(预留);心跳刷新时保留手动 PAUSED 状态 - Controller:新增 InsStatus.PAUSED 状态机与 INSTANCE_PAUSED / INSTANCE_RESUMED 事件,向 Coordinator 推送 PAUSE / RESUME - Coordinator:新增 _paused_pool,暂停实例不再参与新请求调度,已在跑请求可继续完成 - 排空检测:轮询本 Pod 内 engine 的 http://<mgmt_addr>/metrics,累加 num_requests_waiting + num_requests_running 至 0 后退出;prestop.sh 最后 kill -TERM NM 主进程完成容器退出  ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!244 | 22 天前 | |
【feature】新增精度检测:基础设施与Controller自动恢复 Co-authored-by: wangyang<kevin.wangyang@huawei.com> # message auto-generated for no-merge-commit merge: !262 merge master into master 【feature】新增精度检测:基础设施与Controller自动恢复 Created-by: towncharlie Commit-by: wangyang Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!262 | 22 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 5 个月前 | ||
| 20 天前 | ||
| 4 小时前 | ||
| 1 天前 | ||
| 22 天前 | ||
| 22 天前 |