| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[metric] 移除Controller metrics接口,统一使用Coordinator提供的接口【提供新端口】,CCAE_Reporter改为对接Coordinator Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !165 merge metrics_optimize into master [metric] 移除Controller metrics接口,统一使用Coordinator提供的接口【提供新端口】,CCAE_Reporter改为对接Coordinator Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/106 ## **2. 修改内容** 1、弃用Controller对外metrics接口【保留接口,增加warning告知用户弃用了,引导其使用Coordinator的接口】 2、ccae_reporter对接Coordinator metrics接口 3、Coordinator新增Observability API-Server,独立进程,MetricsCollector模块移动到该进程中,新增1027可观测性接口(NodePort) ## **3. 资料变更** 涉及 ## **4. 接口变更** 涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!165 | 1 个月前 | |
[bugfix] 快照恢复后下发的master_dp_ip不一致,增加快照checkpoint后可解锁设备能力,补充接口文档 Co-authored-by: lbr711<liuboru1@huawei.com> # message auto-generated for no-merge-commit merge: !294 merge add_snapshot_api into master [bugfix] 快照恢复后下发的master_dp_ip不一致,增加快照checkpoint后可解锁设备能力,补充接口文档 Created-by: lbr711 Commit-by: lbr711 Merged-by: towncharlie Description: ## **1. 合入背景** 1. 在开启容器快照功能后,设备会处于lock状态等待容器checkpoint. 在checkpoint结束后,设备仍处于lock状态需要unlock,否则当前冷启动服务不可用 2. 增加device_unlock接口 3. 在外界checkpoint结束后,可通过挂载文件通知的形式,让snapshot_sentinel自动调用unlock 4. 修复快照场景下,master_dp_ip不对 5. 补充接口资料 ## **2. 修改内容** ## **3. 资料变更** 不涉及 ## **4. 接口变更** 新增device_unlock ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!294 | 10 天前 | |
[fix] 修复preseparatenpu故障等级的处理逻辑问题,新增subhealthy故障等级映射。 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !327 merge fault_code into master [fix] 修复preseparatenpu故障等级的处理逻辑问题,新增subhealthy故障等级映射。 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/208 ## **2. 修改内容** 预隔离故障不影响当前的推理业务,根据是否有实例处在这个节点上来分配这个故障类型的故障等级。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果** 预隔离故障已修复问题   PreSeparateNPU故障现在会在该节点有实例使用时降级为L2故障,不做隔离和其他策略。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!327 | 4 天前 | |
feat(observability):混部适配inventory Co-authored-by: Jechin<yuzechen1@huawei.com> # message auto-generated for no-merge-commit merge: !161 merge feature/pdhybrid-inventory into master feat(observability):混部适配inventory Created-by: Jechin Commit-by: Jechin Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. Fixes [#108](https://gitcode.com/Ascend/MindIE-PyMotor/issues/108) ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 inventory中补充pd混部实例信息 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 不涉及 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 不涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 已通过 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!161 | 1 个月前 | |
update license Co-authored-by: y1lou<louyi6@huawei.com> # message auto-generated for no-merge-commit merge: !185 merge update_license into master update license Created-by: y1lou Commit-by: y1lou Merged-by: ascend-robot Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-pyMotor!185 | 4 个月前 | |
PyMotor支持port自动检测 Co-authored-by: yangan7<yangan7@h-partners.com> # message auto-generated for no-merge-commit merge: !247 merge port_detect into master PyMotor支持port自动检测 Created-by: mindie_yangan Commit-by: yangan7 Merged-by: towncharlie Description: ## **1. 合入背景** Fixes [#157](https://gitcode.com/Ascend/MindIE-PyMotor/issues/157) ## **2. 修改内容** 1、port_allocator.py — 端口探测/避让/严格报错 + 三组件接入 + 通信矩阵打印 2、port_allocator_config.py — 开关与扫描范围配置 3、motor/config/{coordinator,controller,node_manager}.py — 增加 port_allocator_config 配置项 4、motor/{coordinator,controller,node_manager}/main.py — 启动前调用端口分配 5、tests/coordinator/test_main.py、tests/node_manager/test_config.py — UT 适配 内部端口冲突自动避让并写回配置;对外端口(Coordinator 1025、Controller 1026)冲突则报错退出;启动日志打印[Port matrix]。 ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果** 1、controller pod port矩阵打印效果展示  coordinator pod port矩阵打印效果展示  prefill pod port矩阵打印效果展示  decode pod port矩阵打印效果展示  2、使用脚本强行抢占prefill pod 1026的port  自动检测后该prefill pod避让port为1027,该pods删除重启  重新加载权重后curl通推理请求  重新分配pod和port  3、严格独占类port直接给出清晰报错,不可抢占  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!247 | 18 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 1 个月前 | ||
| 10 天前 | ||
| 4 天前 | ||
| 1 个月前 | ||
| 4 个月前 | ||
| 18 天前 |