| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[feature]3/N 精度异常感知适配代码-采样、校验、上报 Co-authored-by: hxy<huxinyi9@huawei.com> # message auto-generated for no-merge-commit merge: !256 merge feat/precision-core-runtime into master [feature]3/N 精度异常感知适配代码-采样、校验、上报 Created-by: hu-xinyi_555 Commit-by: hxy Merged-by: towncharlie Description: ## **1. 合入背景** 需要提供精度异常感知功能 ## **2. 修改内容** 见issue,主要增加了消息的采样、校验与上报的逻辑 ## **3. 资料变更** 不涉及 ## **4. 接口变更** 在issue中有体现 ## **5. 测试结果** 精度问题出现异常时会进行告警  在ccae界面能见到告警信息  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!256 | 17 天前 | |
[fix] 修复PAUSED实例心跳超时转为DELETED后,Coordinator侧清理相关实例 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !280 merge stopstop into master [fix] 修复PAUSED实例心跳超时转为DELETED后,Coordinator侧清理相关实例 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** prestop 流程中,PAUSED 实例心跳超时后,Controller 将其状态转为 DELETED 并通知 INSTANCE_REMOVED,但存在两处遗漏导致 Coordinator 侧 paused_pool 无法清理: 1、 EventPusher 未处理 INSTANCE_REMOVED — 该事件直接走 else: return,Coordinator 永远收不到 DEL 通知 2、coordinator中的_delete_instances() 未检查 _paused_pool — 即使收到 DEL,也只检查 _unavailable_pool 和 _available_pool,paused_pool 中的实例无法被删除 fixes [#180](https://gitcode.com/Ascend/MindIE-PyMotor/issues/180) ## **2. 修改内容** 1、motor/controller/core/event_pusher.py:新增 INSTANCE_REMOVED 事件处理,将其转换为 EventType.DEL 发送给 Coordinator 2、motor/coordinator/domain/instance_manager.py:_delete_instances() 新增对 _paused_pool 的检查和清理,插入在 _unavailable_pool 和 _available_pool 检查之间  ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!280 | 16 天前 | |
[fix] 补齐D2D权重加载中的 peers 发现与路由能力 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !275 merge D2D into master [fix] 补齐D2D权重加载中的 peers 发现与路由能力 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** 为 vLLM-ascend 的 D2D权重启动加速补齐 peers 发现与路由能力: 1、Controller 收集 peers 时包含 headless endpoint,修复跨机 PCP 下 slave 节点拿不到 peer 的问题 2、Controller 按 ep_id:ip 编码下发 peer 列表,NM 按 endpoint.id路由到对应 engine ## **2. 修改内容** 1、Controller (instance_assembler.py) _collect_d2d_peer_ips 改为按 pod 传入 endpoint_list,返回 [ep_id:ip, ...] 同角色 ACTIVE 实例按 ep.id 匹配 peer,排除自身 调用 get_all_endpoints(include_headless=True),跨机 CP slave 可发现 headless peer 2、NodeManager (daemon.py) 解析 d2d_peer_ips中的 encoded_ep_id:ip,仅向匹配的 engine 传递 --d2d-peer-ips 3、Instance (instance.py) get_all_endpoints(include_headless=False)新增参数;include_headless=True 时跳过 cache,防止污染headless的cache内容,返回含 headless 的完整 endpoint 列表 ## **3. 资料变更** 不涉及 新增readme文档examples/features/startup_acceleration/README.md:D2D 配置、已测模型说明等 ## **4. 接口变更** 不涉及 ## **5. 测试结果**  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!275 | 11 天前 | |
[bugfix] 快照恢复后下发的master_dp_ip不一致,增加快照checkpoint后可解锁设备能力,补充接口文档 Co-authored-by: lbr711<liuboru1@huawei.com> # message auto-generated for no-merge-commit merge: !294 merge add_snapshot_api into master [bugfix] 快照恢复后下发的master_dp_ip不一致,增加快照checkpoint后可解锁设备能力,补充接口文档 Created-by: lbr711 Commit-by: lbr711 Merged-by: towncharlie Description: ## **1. 合入背景** 1. 在开启容器快照功能后,设备会处于lock状态等待容器checkpoint. 在checkpoint结束后,设备仍处于lock状态需要unlock,否则当前冷启动服务不可用 2. 增加device_unlock接口 3. 在外界checkpoint结束后,可通过挂载文件通知的形式,让snapshot_sentinel自动调用unlock 4. 修复快照场景下,master_dp_ip不对 5. 补充接口资料 ## **2. 修改内容** ## **3. 资料变更** 不涉及 ## **4. 接口变更** 新增device_unlock ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!294 | 10 天前 | |
fix(scale-p2d): filter operational P instances and prefer INITIAL on kill Co-authored-by: ylou<louyi6@huawei.com> # message auto-generated for no-merge-commit merge: !285 merge bugfix/scale_p2d_0611 into master fix(scale-p2d): filter operational P instances and prefer INITIAL on kill Created-by: y1lou Commit-by: ylou Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!285 | 12 天前 | |
【feature】新增精度检测:基础设施与Controller自动恢复 Co-authored-by: wangyang<kevin.wangyang@huawei.com> # message auto-generated for no-merge-commit merge: !262 merge master into master 【feature】新增精度检测:基础设施与Controller自动恢复 Created-by: towncharlie Commit-by: wangyang Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!262 | 18 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 17 天前 | ||
| 16 天前 | ||
| 11 天前 | ||
| 10 天前 | ||
| 12 天前 | ||
| 18 天前 |