| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[fix] 增加ManualSeparateNPU故障等级(L6)&& 修复A2故障处理逻辑 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !388 merge fix_preseparateNPU into master [fix] 增加ManualSeparateNPU故障等级(L6)&& 修复A2故障处理逻辑 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** 1、Added MANUALLY_SEPARATE_NPU = "ManuallySeparateNPU" to OriginFaultLevel enum Added OriginFaultLevel.MANUALLY_SEPARATE_NPU: FaultLevel.L6 to map_fault_level mapping Updated docstring to document that ManuallySeparateNPU is never downgraded 2、修复降级处理中的L6等级故障处理bug A2: CardNetworkUnhealthy (PreSeparateNPU) 到达 → active → L2 (降级) → 网络故障打死实例 → INACTIVE → INSTANCE_SEPERATED → _refresh_instance_fault_level → Step 1 重评估: no active → L6 ← 已有逻辑 → Step 3 _affects_instance(fi, node): len(instance_ids) > 0 → True → L6 被包含 → 实例故障等级 = L6 → separate_instance() → ScaleP2D ✓ A3+: 同样报 PreSeparateNPU,但网络故障不会打死实例 → active → L2 → 业务继续跑 → 不进入 INSTANCE_SEPERATED 路径 ✓ ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_monitor.py:406] Fault information changed, processing ConfigMap update (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:437] Fault[1/1] detected - Type: CardNetworkUnhealthy, NPU: Ascend910-5, Code: 0x81078603, Level: L6(PreSeparateNPU) (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:474] PreSeparateNPU fault 0x81078603 downgraded to L2: node node-37-212 still has active instances (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:500] Updated node node-37-212 with 1 hardware fault infos (preserved node_reboot: False) (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][fault_manager.py:465] Instance 1 fault level updated to L2 (code: 0x81078603, category: hardware) (MainProcess pid=30) WARNING 07-03 09:51:43 [resources][instance.py:362] Instance mindie-lyh-vllm-0-d0(id:1)'s endpoints {'10.244.241.182': [6]} have ABNORMAL status (MainProcess pid=30) INFO 07-03 09:51:43 [resources][instance.py:477] Instance mindie-lyh-vllm-0-d0(id:1) status updated to InsStatus.INACTIVE (MainProcess pid=30) INFO 07-03 09:51:43 [core][event_pusher.py:128] Instance removed: mindie-lyh-vllm-0-d0 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:214] FaultManager update instance mindie-lyh-vllm-0-d0 with event: ObserverEvent.INSTANCE_SEPERATED. (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:381] Re-evaluated PreSeparateNPU 0x81078603 → L6 on node node-37-212 (no active instances) (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:465] Instance 1 fault level updated to L6 (code: 0x81078603, category: hardware) (MainProcess pid=30) INFO 07-03 09:51:43 [core][instance_manager.py:463] Successfully separated instance mindie-lyh-vllm-0-d0 (id:1) in state InsStatus.INACTIVE (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:563] Instance 1: strategy ScaleP2DStrategy, level=L6, code=0x81078603 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:102] ScaleP2D strategy started. instance_id=1, job_name=mindie-lyh-vllm-0-d0 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:295] Faulty node count computed. instance_id=1, faulty=1, total=1 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:247] D instance info loaded. instance_id=1, job_name=mindie-lyh-vllm-0-d0, node_count=1, faulty_node_count=1 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:325] Checking D instance status before ScaleP2D. instance_id=1, job_name=mindie-lyh-vllm-0-d0, timeout_s=60 A2实机测试正常,可以在D故障后触发缩P保D ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!388 | 2 天前 | |
[fix] 修复故障感知偶现失效问题 & 优化主备开启时默认打开持久化 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !279 merge hwfault_aware into master [fix] 修复故障感知偶现失效问题 & 优化主备开启时默认打开持久化 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** 修复问题 https://gitcode.com/Ascend/MindIE-PyMotor/issues/179 ## **2. 修改内容** 1、优化故障感知逻辑,watch超时重试时间缩短,避免sleep阶段丢失信息 2、修复configmap内信息为str时无法解析故障信息,导致功能失效 3、开启主备现在会自动打开持久化配置 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** 进入NPU制造故障能正确感知:  产生缩P保D策略成功:  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!279 | 23 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 2 天前 | ||
| 23 天前 |