文件最后提交记录最后更新时间
[bugfix]:修复集中式场景下,未探测slave节点npu利用率,导致对服务健康度的误判现象 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> # message auto-generated for no-merge-commit merge: !733 merge donw3 into dev [bugfix]:修复集中式场景下,未探测slave节点npu利用率,导致对服务健康度的误判现象 Created-by: weixin_63825906 Commit-by: weixin_63825906 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> Fixes [#375](https://gitcode.com/Ascend/MindIE-LLM/issues/375) # 合入背景 > 集中式场景下,虚推健康检查缺少对slave侧NPU利用率的监控,存在误杀风险 # 修改内容 > 基于已有grpc链接,从节点定时向主节点上报npu利用率 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > 10k-1k,50并发,压测,3机A3环境,1P1D 修改前(偶现abnormal) ![image.png](https://raw.gitcode.com/user-images/assets/8772840/7bd0a824-12f4-419b-9ee2-506145b8ae31/image.png 'image.png') 修改后(部分状况下,masterNPU利用率为0,slave为17%,原逻辑下该情况会被判异常,目前无abnormal) ![image.png](https://raw.gitcode.com/user-images/assets/8772840/8a2c4a43-476d-4819-b413-a2b8e20e5cf1/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!7331 个月前
修复虚推时延问题 Co-authored-by: weixin_63825906<gaopeng140@huawei.com> Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !777 merge fix_aisbench into dev 修复虚推时延问题 Created-by: weixin_63825906 Commit-by: weixin_63825906;tobking Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> Fixes [#404](https://gitcode.com/Ascend/MindIE-LLM/issues/404) # 合入背景 > 虚推请求频繁下发影响推理性能 # 修改内容 > 1、准确标识每个dp占用的npu芯片 2、在npu工作情况下减少虚推下发频率。 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > 服务繁忙时减少请求下发 > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/c2a8b988-55a2-41be-9a22-1a9da2ed62dd/image.png 'image.png') > 吞吐量提高(16k-1k性能测试场景) > ![image.png](https://raw.gitcode.com/user-images/assets/8772840/b7894b3a-7e90-4095-9b40-7aa69e4b68a1/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!7771 个月前
code check代码检查 Co-authored-by: KaiMa<KaiMa_SDU@outlook.com> # message auto-generated for no-merge-commit merge: !839 merge codecheck into dev code check代码检查 Created-by: KaiMa Commit-by: KaiMa Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 注意:Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. Fixes #[432](https://gitcode.com/Ascend/MindIE-LLM/issues/432) # 修改内容 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容)。 # 资料变更 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及”。 # 接口变更 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及”。 # 测试结果 > 请说明测试场景,测试方法以及测试结果。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 发请求返回 ![image.png](https://raw.gitcode.com/user-images/assets/8772840/12e68c2d-21ae-44ce-ab39-869c21de3a01/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!8391 个月前
修正循环依赖 Co-authored-by: lbr711<liuboru1@huawei.com> Co-authored-by: yangjinyang<yangjinyang5@huawei.com> # message auto-generated for no-merge-commit merge: !602 merge pr_03 into dev 修正循环依赖 Created-by: yangjinyang Commit-by: lbr711;yangjinyang Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 故障码上报功能位于server中,llm_engine中为了上报故障码直接将server的healthChecker.cpp加入编译llm_engine.so时源文件链接范畴,导致所有直接/间接依赖llm_engine.so的模块,都必须显示链接mindieservice_endpoint,否则找不到符号无法通过编译。 Fix part of #312 # 修改内容 原本内嵌于HealthChecker类中的错误队列功能抽取为独立的单例类ErrorQueue,实现了错误处理逻辑的集中化与解耦,提升了代码的模块化、可维护性,并为其他模块复用该功能奠定了基础 # 资料变更 不涉及 # 接口变更 不涉及 # 测试结果 ![image.png](https://raw.gitcode.com/user-images/assets/8772840/74bcb9f1-7eea-4d39-9939-8bbdf303b3a5/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8772840/31bd8670-ef29-4133-a8df-f0af92f12bac/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8772840/9c2646f1-7aca-4a82-b653-60277ee4d1f5/image.png 'image.png') # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!6022 个月前
[Bugfix] Add RemoveMultimodalCache if request is rejected Co-authored-by: LoganJane<longgang2@huawei.com> # message auto-generated for no-merge-commit merge: !815 merge 0410_shm into dev [Bugfix] Add RemoveMultimodalCache if request is rejected Created-by: LoganJane Commit-by: LoganJane Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 > Fixes #422 # 修改内容 > 请求拒绝后新增释放共享内存逻辑 # 资料变更 > 不涉及 # 接口变更 > 不涉及 # 测试结果 > 修改后验证在请求被拒绝后,共享内存可以正常释放 # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [x] 代码注释完备 - [x] 正确记录错误日志 - [x] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [x] 进行了空指针校验 - [x] 若存在资源申请,使用后资源被正确的释放了 - [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [x] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [x] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!8151 个月前
[fix] 结构化输出 请求参数允许 type:"text" Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !894 merge fix/text into dev [fix] 结构化输出 请求参数允许 type:"text" Created-by: LinWei100 Commit-by: LinWei100 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 注意:Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. Fixes #523 # 修改内容 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容)。 1. infer_param.cpp 放开参数校验中response_format 的 type允许范围,从json_object, json_schema放开为json_object, json_schema, **text** 。当text时,请求不写入response_format参数 2. single_req_infer_interface_base.cpp 参数校验场景启用结构化输出条件排除type: "text" # 资料变更 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及”。 增加type: "text" 说明 # 接口变更 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及”。 # 测试结果 > 请说明测试场景,测试方法以及测试结果。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!8941 个月前
[bugfix] 对齐多模态媒体限制到 maxRequestLength Co-authored-by: muziyuhui666<lijianfu9@huawei.com> # message auto-generated for no-merge-commit merge: !715 merge feat/multimodal-media-limit-config into dev [bugfix] 对齐多模态媒体限制到 maxRequestLength Created-by: muziyuhui666 Commit-by: muziyuhui666 Merged-by: ascend-robot Description: # 合入背景 当前多模态媒体(图片/音频)在不同组件间存在硬编码与语义不一致的问题,可能导致: 1. 服务端请求体上限(maxRequestLength)与 tokenizer 侧图片/音频媒体大小校验规则不一致; 2. Python tokenizer 在下载/保存图片链路中仍存在固定上限,影响与配置项统一; 3. HTTP 413 PayloadTooLarge 返回信息使用固定文案,难以与当前配置(maxRequestLength)对应; 本 PR 旨在减少媒体限制相关硬编码,并将多模态媒体大小限制尽可能对齐到 maxRequestLength 配置范围,同时同步更新相关校验逻辑与测试。 # 修改内容 1. src/server/endpoint/http_wrapper/http_server.cpp - 在 HTTP 413 PayloadTooLarge 场景下,错误文案从固定文案改为使用 GetServerConfig().maxRequestLength 计算并拼接,提升与配置的一致性。 2. src/server/tokenizer/infer_tokenizer.cpp - 调用 Python download_url 时增加/传递 size_limit 参数,使用 GetMaxTextLength()(由 maxRequestLength 换算为字节上限)作为媒体大小限制驱动输入链路。 3. mindie_llm/tokenizer/tokenizer.py - 将 download_url/_download/_process_url_path/_process_local_path/_process_base64 增加 size_limit 透传链路。 - 移除图片/音频的固定 _SINGLE_IMAGE_LIMIT/_SINGLE_AUDIO_LIMIT 相关逻辑。 - base64 分支在保存图片时使用 size_limit 进行校验,避免仍受固定上限影响。 4. mindie_llm/tokenizer/io_utils.py - fetch_media_urlsave_image 改为显式接收 size_limit 参数,图片保存前按 size_limit 校验字节大小,移除固定 20MB 硬编码。 5. examples/atb_models/atb_llm/utils/multimodal_utils.py - 为简化处理,将 MAX_IMAGE_FILE_SIZEMAX_AUDIO_FILE_SIZE20 * 1024 * 1024 调整为 100 * 1024 * 1024,与文档中 maxRequestLength 参数范围(1~100MB)更一致,减少 ATB 侧更早拦截导致的不一致。 # 资料变更 不涉及。 # 接口变更 不涉及对跨代码仓或客户面可见的接口变更。 说明:仅为 tokenizer 内部 C++ -> Python 调用链增加媒体 size_limit 透传参数,C++ 调用方已同步更新。 # 测试结果 - 已完成本 PR 相关代码修改与对应单测同步更新。 - 在目标环境已验证以下场景: - 图片/音频通过 URL、本地路径与 base64 三种输入方式的超限场景返回符合预期; - HTTP 413 返回信息中“最大允许大小”随 maxRequestLength 正确变化; # CheckList - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) Fix [#363](https://gitcode.com/Ascend/MindIE-LLM/issues/363) See merge request: Ascend/MindIE-LLM!7151 个月前
[fix] 结构化输出 请求参数允许 type:"text" Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !894 merge fix/text into dev [fix] 结构化输出 请求参数允许 type:"text" Created-by: LinWei100 Commit-by: LinWei100 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20251225 --> # 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 注意:Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. Fixes #523 # 修改内容 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容)。 1. infer_param.cpp 放开参数校验中response_format 的 type允许范围,从json_object, json_schema放开为json_object, json_schema, **text** 。当text时,请求不写入response_format参数 2. single_req_infer_interface_base.cpp 参数校验场景启用结构化输出条件排除type: "text" # 资料变更 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及”。 增加type: "text" 说明 # 接口变更 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及”。 # 测试结果 > 请说明测试场景,测试方法以及测试结果。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 # CheckList > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x]。 - [ ] 代码注释完备 - [ ] 正确记录错误日志 - [ ] 进行了返回值校验 (禁止使用void屏蔽安全函数、自研函数返回值;考虑接口的异常场景;调用底层组件接口时,需要进行返回值校验) - [ ] 进行了空指针校验 - [ ] 若存在资源申请,使用后资源被正确的释放了 - [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 - [ ] 按照[代码仓中提供的格式模板](https://gitcode.com/Ascend/MindIE-LLM/blob/master/.clang-format),使用clang-format工具格式化代码 - [ ] 符合Ascend社区的编码规范。[C++ 语言编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-coding-style-guide.md) | [C++ 语言安全编程指导](https://gitcode.com/Ascend/community/blob/master/docs/contributor/Ascend-cpp-secure-coding-guide.md) See merge request: Ascend/MindIE-LLM!8941 个月前
[dev]Synchronize code Co-authored-by: forcekeng<gengli8@huawei.com> 5 个月前