MindIE-PyMotor/tests/controller/fault_tolerance/k8s · Ascend/MindIE-PyMotor - AtomGit

towncharlie[fix] 增加ManualSeparateNPU故障等级（L6）&& 修复A2故障处理逻辑

文件	最后提交记录	最后更新时间
test_configmap_parser.py	[fix] 增加ManualSeparateNPU故障等级（L6）&& 修复A2故障处理逻辑 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !388 merge fix_preseparateNPU into master [fix] 增加ManualSeparateNPU故障等级（L6）&& 修复A2故障处理逻辑 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 1、Added MANUALLY_SEPARATE_NPU = "ManuallySeparateNPU" to OriginFaultLevel enum Added OriginFaultLevel.MANUALLY_SEPARATE_NPU: FaultLevel.L6 to map_fault_level mapping Updated docstring to document that ManuallySeparateNPU is never downgraded 2、修复降级处理中的L6等级故障处理bug A2: CardNetworkUnhealthy (PreSeparateNPU) 到达 → active → L2 (降级) → 网络故障打死实例 → INACTIVE → INSTANCE_SEPERATED → _refresh_instance_fault_level → Step 1 重评估: no active → L6 ← 已有逻辑 → Step 3 _affects_instance(fi, node): len(instance_ids) > 0 → True → L6 被包含 → 实例故障等级 = L6 → separate_instance() → ScaleP2D ✓ A3+: 同样报 PreSeparateNPU，但网络故障不会打死实例 → active → L2 → 业务继续跑 → 不进入 INSTANCE_SEPERATED 路径 ✓ ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_monitor.py:406] Fault information changed, processing ConfigMap update (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:437] Fault[1/1] detected - Type: CardNetworkUnhealthy, NPU: Ascend910-5, Code: 0x81078603, Level: L6(PreSeparateNPU) (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:474] PreSeparateNPU fault 0x81078603 downgraded to L2: node node-37-212 still has active instances (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][resource_manager.py:500] Updated node node-37-212 with 1 hardware fault infos (preserved node_reboot: False) (MainProcess pid=30) INFO 07-03 09:50:47 [fault_tolerance][fault_manager.py:465] Instance 1 fault level updated to L2 (code: 0x81078603, category: hardware) (MainProcess pid=30) WARNING 07-03 09:51:43 [resources][instance.py:362] Instance mindie-lyh-vllm-0-d0(id:1)'s endpoints {'10.244.241.182': [6]} have ABNORMAL status (MainProcess pid=30) INFO 07-03 09:51:43 [resources][instance.py:477] Instance mindie-lyh-vllm-0-d0(id:1) status updated to InsStatus.INACTIVE (MainProcess pid=30) INFO 07-03 09:51:43 [core][event_pusher.py:128] Instance removed: mindie-lyh-vllm-0-d0 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:214] FaultManager update instance mindie-lyh-vllm-0-d0 with event: ObserverEvent.INSTANCE_SEPERATED. (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:381] Re-evaluated PreSeparateNPU 0x81078603 → L6 on node node-37-212 (no active instances) (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:465] Instance 1 fault level updated to L6 (code: 0x81078603, category: hardware) (MainProcess pid=30) INFO 07-03 09:51:43 [core][instance_manager.py:463] Successfully separated instance mindie-lyh-vllm-0-d0 (id:1) in state InsStatus.INACTIVE (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][fault_manager.py:563] Instance 1: strategy ScaleP2DStrategy, level=L6, code=0x81078603 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:102] ScaleP2D strategy started. instance_id=1, job_name=mindie-lyh-vllm-0-d0 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:295] Faulty node count computed. instance_id=1, faulty=1, total=1 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:247] D instance info loaded. instance_id=1, job_name=mindie-lyh-vllm-0-d0, node_count=1, faulty_node_count=1 (MainProcess pid=30) INFO 07-03 09:51:43 [fault_tolerance][scale_p2d.py:325] Checking D instance status before ScaleP2D. instance_id=1, job_name=mindie-lyh-vllm-0-d0, timeout_s=60 A2实机测试正常，可以在D故障后触发缩P保D ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!388	2 天前
test_resource_monitor.py	[fix] 修复故障感知偶现失效问题 & 优化主备开启时默认打开持久化 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !279 merge hwfault_aware into master [fix] 修复故障感知偶现失效问题 & 优化主备开启时默认打开持久化 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## 1. 合入背景修复问题 https://gitcode.com/Ascend/MindIE-PyMotor/issues/179 ## 2. 修改内容 1、优化故障感知逻辑，watch超时重试时间缩短，避免sleep阶段丢失信息 2、修复configmap内信息为str时无法解析故障信息，导致功能失效 3、开启主备现在会自动打开持久化配置 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果进入NPU制造故障能正确感知： ![PixPin_2026-06-11_10-52-03.png](https://raw.gitcode.com/user-images/assets/9072912/63cdedc0-0bdb-4cb9-a730-592285d8c279/PixPin_2026-06-11_10-52-03.png 'PixPin_2026-06-11_10-52-03.png') 产生缩P保D策略成功： ![PixPin_2026-06-11_10-52-49.png](https://raw.gitcode.com/user-images/assets/9072912/ed21c647-3312-46de-b6b4-2f0f32a9b410/PixPin_2026-06-11_10-52-49.png 'PixPin_2026-06-11_10-52-49.png') ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!279	23 天前