文件最后提交记录最后更新时间
[bugfix]:修复P节点npublock为0时,虚推误判服务状态的问题 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !743 merge gp_block into dev [bugfix]:修复P节点npublock为0时,虚推误判服务状态的问题 Created-by: weixin_63825906 Commit-by: weixin_63825906;Katrina-CXY;taojiovvo Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> Fixes [#378](https://gitcode.com/Ascend/MindIE-LLM/issues/378) # 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 注意:Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. # 修改内容 > LLM层上传标志位,表明最近5秒内是否有请求成功调度。 > 健康检查获取标志位,并避免无法调度时误杀服务。 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > A3 3机器 1P2D 1w并发 压测30分钟 服务无异常 ![image.png](https://raw.gitcode.com/user-images/assets/8772840/9fcb25ef-5d3e-443f-83ea-7cbedc6e3501/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8772840/26fa8b3a-129e-4125-ac2d-a53e82850bf2/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!7431 个月前
修复虚推时延问题 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !777 merge fix_aisbench into dev 修复虚推时延问题 Created-by: weixin_63825906 Commit-by: weixin_63825906;tobking Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> Fixes [#404](https://gitcode.com/Ascend/MindIE-LLM/issues/404) # 合入背景 > 虚推请求频繁下发影响推理性能 # 修改内容 > 1、准确标识每个dp占用的npu芯片 2、在npu工作情况下减少虚推下发频率。 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > 服务繁忙时减少请求下发 > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/c2a8b988-55a2-41be-9a22-1a9da2ed62dd/image.png 'image.png') > 吞吐量提高(16k-1k性能测试场景) > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/b7894b3a-7e90-4095-9b40-7aa69e4b68a1/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!7771 个月前
虚推主体功能实现 Co-authored-by: tobking<wangjun292@huawei.com> Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !165 merge br_dev_0107_sim into dev 虚推主体功能实现 Created-by: tobking Commit-by: tobking;weixin_63825906 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 当前技术状况:在PD分离场景下,如果子进程挂死,未发出退出信号,服务仍对外保持健康状态,其他卡触发HCCL/LCCL通信超时引发重启。 因此,PD分离需要一种通用的静默故障检测方案 fixes #122 # 修改内容 实现方案:在每个server进程中创建一个健康检查线程,该线程每隔5秒会发送一次虚推请求并开启一次NPU利用率检测,然后综合虚推和NPU利用率检测的结果,对服务的健康状态做出判断。混部场景下server进程会提供外部接口查询服务健康状态。 ![image.png](https://raw.gitcode.com/user-images/assets/8772840/3640d2a6-038a-4149-a237-7eb6b38bbaca/image.png 'image.png') # 资料变更 >不涉及。 # 接口变更 > “不涉及”。 # 测试结果 > 请说明测试场景,测试方法以及测试结果。\ > 1. 使用health-timed接口验证单次虚推,功能正常。 > 2. 推理功能正常,正常吐出token。 # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [x] 代码注释完备 - [x] 正确记录错误日志 - [x] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!1654 个月前
修复虚推时延问题 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !777 merge fix_aisbench into dev 修复虚推时延问题 Created-by: weixin_63825906 Commit-by: weixin_63825906;tobking Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> Fixes [#404](https://gitcode.com/Ascend/MindIE-LLM/issues/404) # 合入背景 > 虚推请求频繁下发影响推理性能 # 修改内容 > 1、准确标识每个dp占用的npu芯片 2、在npu工作情况下减少虚推下发频率。 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > 服务繁忙时减少请求下发 > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/c2a8b988-55a2-41be-9a22-1a9da2ed62dd/image.png 'image.png') > 吞吐量提高(16k-1k性能测试场景) > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/b7894b3a-7e90-4095-9b40-7aa69e4b68a1/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!7771 个月前