| MS接收LLM发起的实例级快恢流程,并根据LLM上报的故障码生成告警,上报给CCAE
Co-authored-by: lbr711<liuboru1@huawei.com>
# message auto-generated for no-merge-commit merge:
!97 merge oom into dev
MS接收LLM发起的实例级快恢流程,并根据LLM上报的故障码生成告警,上报给CCAE
Created-by: lbr711
Commit-by: lbr711
Merged-by: ascend-robot
Description: ## **1. 合入背景**
MindIE LLM Text Generator触发OutOfMemory(OOM)异常时向控制面抛出,控制面负责触发OOM快恢流程并向CCAE上报事件告警
## **2. 修改内容**
1. 提供OOM故障码由NodeManager透传至Controller的通信通道
2. 接收OOM故障码时, 触发OOM快恢流程
3. 上报CCAE事件告警
4. OOM快恢流程沿用灵衢快恢, PAUSE_ENGINE->REINIT_NPU->START_ENGINE
## **3. 资料变更**
1. 在配置项"fault_recovery_func_dict"中新增使能OOM快恢的子配置项"oom"
2. 修改NodeManager的轮询间隔为1s
## **4. 接口变更**
不涉及
## **5. 测试结果**
## **6. CheckList**
> PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]
[x] 代码注释完备
[x] 正确记录维测日志
[x] 是否有UT用例
See merge request: Ascend/MindIE-Motor!97 | 2 个月前 |