模式编号,错误码,模式名称,一级,二级,三级,四级,五级,故障原因,故障影响(业务面),故障影响(管理面),爆炸半径,故障等级,故障分类,场景分类,关键故障(影响),典型故障(频次),检测机制,模块处理,系统处理,恢复时间,恢复等级,故障可构造,构造方法,故障定位方法,故障关键日志,下级模式编号,检测使能条件,可定位性自检结果,自动化定位
EPLB-FM001,,EPLB Scheduler进程未运行,AI软件,MINDIE,SD,eplb_scheduler,平台软件,EPLB scheduler未启动或启动后异常退出,专家负载均衡不生效;专家布局无法动态更新,进程监控显示scheduler进程缺失;无端口监听,单个EPLB调度域,高,进程故障,初始化场景,是,中,进程监控;日志记录,无scheduler监控循环;worker无法建立管理连接,调用方需重新拉起scheduler并确认启动参数,需人工介入,二级,是,不启动python -m mindiesd.eplb.eplb_scheduler后直接启动EPLB worker,1. ps -ef检查mindiesd.eplb.eplb_scheduler 2. ss检查端口监听 3. grep Scheduler monitor started确认监控循环,Scheduler monitor started,EPLB-FM003,日志输出正常;进程监控使能,可定位,部分自动化
EPLB-FM002,,EPLB Scheduler端口不可用,AI软件,MINDIE,SD,eplb_scheduler,平台软件,scheduler端口未监听或被其他进程占用,worker无法连接scheduler;EPLB任务无法流转,端口监控显示目标端口无监听或监听进程不符合预期,单个EPLB调度域,高,进程故障,初始化场景,是,中,端口监控;进程监控,启动失败或监听到错误进程,调用方需调整端口或清理占用进程,需人工介入,二级,是,使用已占用端口启动scheduler或worker配置错误端口,1. ss -ltnp检查SCHEDULER_PORT 2. 对比scheduler host和port 3. 检查worker manager_addr日志,Scheduler monitor started,EPLB-FM003,端口监控可用;日志输出正常,可定位,部分自动化
EPLB-FM003,,EPLB Worker连接Scheduler失败,AI软件,MINDIE,SD,task_manager,平台软件,worker配置的ip或port与scheduler不一致;网络命名空间不可达,worker线程无法获取instruction_queue和upload_queue;负载上报中断,连接日志缺失;连接异常可在worker侧日志中体现,单个rank或整个EPLB调度域,高,通信故障,初始化场景,是,中,日志记录;连接状态检测,manager.connect失败或未打印连接成功日志,调用方需统一worker与scheduler的ip和port,需人工介入,二级,是,将worker ip或port配置为错误值,1. grep Connected to schedule manager 2. 检查manager_addr 3. 检查scheduler端口监听,Connected to schedule manager,EPLB-FM001,日志输出正常;worker启动到连接阶段,可定位,部分自动化
EPLB-FM004,,EPLB认证密钥不一致,AI软件,MINDIE,SD,task_manager,平台软件,scheduler和worker使用的EPLB_AUTH_KEY不一致,worker无法接入scheduler;EPLB动态布局不生效,认证失败日志或连接失败现象出现,单个rank或整个EPLB调度域,高,配置故障,初始化场景,是,低,日志记录;连接状态检测,manager认证失败后连接不可用,调用方需统一scheduler和worker的auth_key,需人工介入,二级,是,scheduler和worker设置不同EPLB_AUTH_KEY,1. 检查EPLB_AUTH_KEY环境变量 2. grep AuthenticationError 3. grep digest sent was rejected,AuthenticationError,EPLB-FM003,异常捕获正常;日志输出正常,可定位,部分自动化
EPLB-FM005,,EPLB Profile任务入队失败,AI软件,MINDIE,SD,task_transfer,平台软件,instruction_queue已满;scheduler或worker消费速度低于生产速度,专家负载采样任务丢失;布局更新延迟或不触发,队列堆积告警显示scheduler消费异常,单个MoE层或单个EPLB调度域,中,线程故障,推理场景,否,中,日志记录;队列状态检测,记录WARNING并跳过本次profile任务,系统继续推理但EPLB更新可能滞后,自动恢复或调整配置,三级,是,降低scheduler消费能力或将lb_interval配置过小,1. grep EPLB profile task enqueue failed 2. 检查scheduler进程状态 3. 增大lb_interval,EPLB profile task enqueue failed,EPLB-FM006,日志输出正常;队列put_nowait异常捕获正常,可定位,部分自动化
EPLB-FM006,,EPLB Scheduler处理上报失败,AI软件,MINDIE,SD,eplb_scheduler,平台软件,rank上报字段缺失;moe_layer_idx越界;队列状态与world_size不匹配,scheduler退出或当前轮布局计算失败;动态专家布局停止更新,scheduler错误日志包含failed to process upload queue,单个EPLB调度域,高,逻辑故障,推理场景,是,中,日志记录;异常捕获,抛出ModelExecError并保留actual_error,调用方需修复worker上报字段和scheduler参数,需人工介入,二级,是,构造缺少load或local_expert_list字段的rank report,1. grep EPLB scheduler failed 2. 检查moe_layer_idx和block_num 3. 检查world_size与rank上报数量,EPLB scheduler failed,EPLB-FM007,异常捕获正常;日志输出正常,可定位,部分自动化
EPLB-FM007,,EPLB专家初始放置失败,AI软件,MINDIE,SD,greedy_algorithm,平台软件,没有设备满足单个专家的内存预算要求,布局计算失败;无法下发布局更新,错误日志显示专家无法找到初始放置位置,单个MoE层或EPLB调度域,高,资源故障,推理场景,是,中,日志记录;资源约束检查,记录ERROR并抛出MemoryError,调用方需调整world_size expert_num redundant或专家权重规模,需人工介入,二级,是,设置过小设备内存预算或过大专家规模,1. grep Expert initial placement failed 2. 检查expert_num和world_size 3. 检查redundant配置,Expert initial placement failed,,异常捕获正常;日志输出正常,可定位,部分自动化
EPLB-FM008,,EPLB共享专家放置失败,AI软件,MINDIE,SD,greedy_algorithm,平台软件,共享专家内存需求超过至少一张设备预算,共享专家无法部署到所有设备;布局计算失败,错误日志显示shared expert内存不足,单个MoE层或EPLB调度域,高,资源故障,推理场景,是,低,日志记录;资源约束检查,记录ERROR并抛出MemoryError,调用方需降低共享专家大小或提高单卡专家预算,需人工介入,二级,是,配置shared_expert_id且设备预算小于共享专家大小,1. grep Shared expert placement failed 2. 检查shared_expert_id 3. 检查device_mems配置,Shared expert placement failed,,异常捕获正常;日志输出正常,可定位,部分自动化
EPLB-FM009,,EPLB专家交换状态不一致,AI软件,MINDIE,SD,greedy_algorithm,平台软件,device_to_expert缺少待交换设备;rank覆盖或布局状态构造异常,专家交换阶段失败;EX模式布局更新中断,错误日志显示device index missing from device_to_expert,单个MoE层或EPLB调度域,高,状态故障,推理场景,是,低,日志记录;状态检测,记录ERROR并抛出IndexError,调用方需检查rank覆盖和device_to_expert构造,需人工介入,二级,是,构造缺少某个device key的device_to_expert状态,1. grep Expert exchange failed 2. 检查rank覆盖 3. 检查local_expert_list上报完整性,Expert exchange failed,,异常捕获正常;日志输出正常,可定位,部分自动化
EPLB-FM010,,EPLB布局长期未更新,AI软件,MINDIE,SD,eplb_scheduler,平台软件,未收齐world_size个rank的负载上报;block_num未覆盖目标MoE层;负载未触发update,动态负载均衡不生效;专家布局保持初始状态,监控日志长期无Layer layout computed或退出时update_count为0,单个MoE层或EPLB调度域,中,状态故障,推理场景,否,中,日志记录;状态检测,scheduler继续轮询队列但不下发布局更新,系统继续推理但无EPLB收益,自动恢复或人工调整,三级,是,只启动部分rank worker或将block_num设置小于MoE层数,1. grep Connected to schedule manager 2. grep Layer layout computed 3. grep Scheduler update count,Layer layout computed,EPLB-FM003,DEBUG日志输出正常;scheduler监控循环运行,可定位,部分自动化
EPLB-FM011,,EPLB未知任务指令,AI软件,MINDIE,SD,task_manager,平台软件,instruction_queue混入非TaskPayload对象或不支持的TaskType,worker忽略或抛出异常;对应MoE层布局更新不执行,日志显示Unknown instruction ignored或Unknown task type,单个rank或单个MoE层,中,逻辑故障,推理场景,否,低,日志记录;类型检查,未知普通指令被忽略;未知TaskType抛出ParametersInvalid,调用方需修正任务构造路径,需人工介入,三级,是,向instruction_queue写入字符串或非法TaskPayload,1. grep Unknown instruction ignored 2. grep Unknown task type 3. 检查TaskType仅使用PROFILE和UPDATE_LAYOUT,Unknown instruction ignored,,日志输出正常;异常捕获正常,可定位,部分自动化