文件最后提交记录最后更新时间
feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Co-authored-by: wuzheng-hw<wuzheng14@huawei.com> # message auto-generated for no-merge-commit merge: !1867 merge multistream into develop feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Created-by: wuzheng-hw Commit-by: wuzheng-hw Merged-by: cann-robot Description: # Pull Request 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 ## 描述 主要内容: 1. DumpDebugJSONPrint 链路与通信算子标识能力,在 GE 的 API/Session/GraphManager/ModelManager/Executor 等关键路径中打通信息传递与处理逻辑。 2. 增强通信算子扩展信息处理能力,用于支持上层脚本检测 AIV 通信算子多流并发卡死异常。 3. 补充并更新相关 UT 用例,覆盖 ge_api、inner_session、model_manager、hcom_util、task_info 等模块。 ## 变更类型 - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 t - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue Closes #<issue_number> ## 如何测试 - 编译并执行相关 GE UT: - tests/ge/ut/ge/session/ge_api_unittest.cc - tests/ge/ut/ge/session/inner_session_unittest.cc - tests/ge/ut/ge/graph/load/model_manager_unittest.cc - tests/ge/ut/ge/graph/manager/hcom_util_unittest.cc - 验证通信算子扩展信息在关键链路中可正确透传与读取。 ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md) See merge request: cann/ge!18671 个月前
feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Co-authored-by: wuzheng-hw<wuzheng14@huawei.com> # message auto-generated for no-merge-commit merge: !1867 merge multistream into develop feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Created-by: wuzheng-hw Commit-by: wuzheng-hw Merged-by: cann-robot Description: # Pull Request 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 ## 描述 主要内容: 1. DumpDebugJSONPrint 链路与通信算子标识能力,在 GE 的 API/Session/GraphManager/ModelManager/Executor 等关键路径中打通信息传递与处理逻辑。 2. 增强通信算子扩展信息处理能力,用于支持上层脚本检测 AIV 通信算子多流并发卡死异常。 3. 补充并更新相关 UT 用例,覆盖 ge_api、inner_session、model_manager、hcom_util、task_info 等模块。 ## 变更类型 - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 t - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue Closes #<issue_number> ## 如何测试 - 编译并执行相关 GE UT: - tests/ge/ut/ge/session/ge_api_unittest.cc - tests/ge/ut/ge/session/inner_session_unittest.cc - tests/ge/ut/ge/graph/load/model_manager_unittest.cc - tests/ge/ut/ge/graph/manager/hcom_util_unittest.cc - 验证通信算子扩展信息在关键链路中可正确透传与读取。 ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md) See merge request: cann/ge!18671 个月前
feat: 添加ge_session_registry功能 Co-authored-by: stevenaw0<huangguijun@huawei.com> # message auto-generated for no-merge-commit merge: !1151 merge feat/ge-session-registry into develop feat: 添加ge_session_registry功能 Created-by: stevenaw0 Commit-by: stevenaw0 Merged-by: cann-robot Description: ## 描述 新增 ge_session_registry 功能,用于管理 GE session 的生命周期和资源清理。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] ✨ 新功能 - [x] 🐛 Bug 修复 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> 无 ## 如何测试 编译并运行相关测试用例验证新增功能: 1. 确保 GEFinalizeV2() 正确调用 FinalizeAllSessions() 2. 确保多个 session 的资源都能被正确清理 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:) - [x] 我已经详细阅读了贡献指南,并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 ### 本次修改的改动说明 #### 为什么需要这样修改? 1. **问题背景**:原有的 GE 机制在 GEFinalizeV2() 调用时,创建的 session 不会被清理 2. **核心痛点**:每个 session 的 inner_session_ 需要在程序结束时手动调用 Finalize(),但没有集中管理的机制 3. **潜在风险**:如果先调用GEFinalizeV2(),后释放GeSession,会触发资源释放与模型卸载,但是全局的资源已经在GEFinalizeV2中释放了,容易出现未定义行为。 #### 具体实现方案 1. **新增 ge_session_registry**:使用单例模式创建全局 session 注册表 2. **注册机制**:在 GeSession::Impl 构造函数中,将 session 的 finalize 函数注册到 registry 3. **清理机制**:在 GEFinalizeV2() 中调用 FinalizeAllSessions(),遍历所有注册的 session 执行 Finalize 并清理 4. **线程安全**:使用 std::mutex 保护注册表,确保多线程安全 #### 修改文件说明 - ge_session_registry.h:新增 session 注册表实现 - ge_session_impl.h/cc:在构造/析构时注册/注销 session - ge_api_v2.cc:在 GEFinalizeV2() 中调用 FinalizeAllSessions() #### 代码要点 - 使用单例模式管理全局 session 注册表 - 使用函数式编程存储 finalize 函数,支持灵活的清理逻辑 - 线程安全的实现,避免并发访问问题 - RAII 机制,确保 session 销毁时自动清理 See merge request: cann/ge!11512 个月前
【PR】:修改不规范的日志 Co-authored-by: chenqian1365<chenqian2@huawei.com> # message auto-generated for no-merge-commit merge: !2583 merge develop into develop 【PR】:修改不规范的日志 Created-by: chenqian1365 Commit-by: chenqian1365 Merged-by: cann-robot Description: # Pull Request ## 描述 将日志里 can not/Can not 改为 cannot/Cannot ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [x] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [ ] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [ ] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [ ] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/ge!258324 天前
feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Co-authored-by: wuzheng-hw<wuzheng14@huawei.com> # message auto-generated for no-merge-commit merge: !1867 merge multistream into develop feat: 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 Created-by: wuzheng-hw Commit-by: wuzheng-hw Merged-by: cann-robot Description: # Pull Request 通信算子多流并发卡死检测链路,GE提供DUMP JSON PRINT能力 ## 描述 主要内容: 1. DumpDebugJSONPrint 链路与通信算子标识能力,在 GE 的 API/Session/GraphManager/ModelManager/Executor 等关键路径中打通信息传递与处理逻辑。 2. 增强通信算子扩展信息处理能力,用于支持上层脚本检测 AIV 通信算子多流并发卡死异常。 3. 补充并更新相关 UT 用例,覆盖 ge_api、inner_session、model_manager、hcom_util、task_info 等模块。 ## 变更类型 - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 t - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue Closes #<issue_number> ## 如何测试 - 编译并执行相关 GE UT: - tests/ge/ut/ge/session/ge_api_unittest.cc - tests/ge/ut/ge/session/inner_session_unittest.cc - tests/ge/ut/ge/graph/load/model_manager_unittest.cc - tests/ge/ut/ge/graph/manager/hcom_util_unittest.cc - 验证通信算子扩展信息在关键链路中可正确透传与读取。 ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md) See merge request: cann/ge!18671 个月前
【PR】: 修正日志格式占位符和拼写问题 Co-authored-by: KenChow<zhouchen53@huawei.com> # message auto-generated for no-merge-commit merge: !2261 merge errcode_0305 into develop 【PR】: 修正日志格式占位符和拼写问题 Created-by: KenChow Commit-by: KenChow Merged-by: cann-robot Description: # Pull Request ## 描述 - 修正日志和错误上报中 uint64_t / int64_t 等固定宽度整数的格式化占位符,统一使用 PRIu64 / PRId64。 - 修正部分日志文本中的英文拼写问题,提升诊断信息准确性。 ## 变更类型 请选择本次引入的变更类型: - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [x] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue ## 如何测试 描述测试此变更的步骤和前提条件: 1. 已提交 CI 流水线验证。 2. 建议补充确认受影响模块的增量编译结果。 ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定 ## 其他信息 See merge request: cann/ge!22611 个月前
modify aclrt context Co-authored-by: wuzhengzhen<wuzhengzhen@huawei.com> # message auto-generated for no-merge-commit merge: !1111 merge aclrt_context_test into develop 【feat】: rt接口切换为aclrt系列接口-context相关 Created-by: wuzhengzhen Commit-by: wuzhengzhen Merged-by: cann-robot Description: # Pull Request ## 描述 请清晰准确地描述本次 Pull Request 的意图和变更内容。 修改rt的context相关接口 rtCtxCreate -> aclrtCreateContext rtCtxDestroy -> aclrtDestroyContext rtCtxSetCurrent -> aclrtSetCurrentContext rtCtxGetCurrent -> aclrtGetCurrentContext rtCtxGetCurrentDefaultStream -> aclrtCtxGetCurrentDefaultStream rtCtxGetOverflowAddr -> aclrtCtxGetFloatOverflowAddr ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. 2. ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/ge!11112 个月前
Initial commit 5 个月前
【PR】:修改不规范的日志 Co-authored-by: chenqian1365<chenqian2@huawei.com> # message auto-generated for no-merge-commit merge: !2583 merge develop into develop 【PR】:修改不规范的日志 Created-by: chenqian1365 Commit-by: chenqian1365 Merged-by: cann-robot Description: # Pull Request ## 描述 将日志里 can not/Can not 改为 cannot/Cannot ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [x] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [ ] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [ ] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [ ] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/ge!258324 天前
【PR】:ge一月份需求合入(包含整改dflow ST、自定义算子执行Context等) Co-authored-by: jikai-tyler<jikai5@huawei.com> # message auto-generated for no-merge-commit merge: !223 merge master into master 【PR】:ge一月份需求合入(包含整改dflow ST、自定义算子执行Context等) Created-by: jikai-tyler Commit-by: jikai-tyler Merged-by: cann-robot Description: # Pull Request ## 描述 ge一月份需求合入: 1、llt测试用例相关重复stub文件清理 2、Triton入图parser解析dlopen的handle关闭 - Triton入图parser解析dlopen的handle关闭 - 补充tensorflow 中其他的入参类型 - 优化parser 解析的的代码 3、UserGraphsManager suppport gert::Tensor - UserGraphsManager及JitExecutor等RunGraphAsync入参由ge::Tensor改为gert::Tensor - 老的兼容接口Session::RunGraph/RunGraphAsync在ge_api.cc 将ge::Tensor转换为gert::Tensor,然后调用InnerSession的接口。 4、整改dflow ST中的HELPER_RES_FILE_PATH - HELPER_RES_FILE_PATH配置文件已经废弃,需要删除并整改用例使用RESOURCE_CONFIG_PATH。 - rtGetIsHeterogenous接口已经废弃,需要删除并整改用例使用RESOURCE_CONFIG_PATH环境变量。 5、注册ge错误码 - 从error_code.json文件中拆分出GE错误码,通过ErrorManager模块的对外接口REG_FORMAT_ERROR_MSG宏完成GE错误码的注册 6、使能acl目录覆盖率拦截项 7、triton入图parser解析优化 8、告警规则处理 9、refactor parser/common/tuple.h 10、fix UserGraphControl SetCompiledFlag/SetCompiledFlag 11、修复Sample问题 - Include stdint and stddef for base mdl - move CheckRunGraphMode to ge_api_v2.cc 12、自定义算子执行Context 13、fix AllRealInputsAreTheSameOutAnchor error log issue - 在Session::AddGraph时会造一个UserGraphControl实例。因此在UserGraphControl中增加compiled_flag 14、bugfix:handling excessively long name - 避免因字符串过长导致二进制匹配耗尽资源而coredump,裁剪name,只保留最开始的128字符 15、acl code check告警处理 16、modify 3rd compile para 17、修改自定义ES_API Sample问题 && README.md 18、Refined inner session to no longer retrieve GraphNode or GraphOptions via graph_id from graph_manager. 19、ES关键类PIMPL实现 && 修改命名空间 - EsCGraphBuilder, CompliantNodeBuilder, EsCTensorHolder改为PIMPL实现 - 修改AddEdgeAndUpdatePeerDesc和CompliantNodeBuilder命名空间至ge::es 20、手动实现log功能, 实现debug_print函数来定位 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1.存量用例执行 2.告警规则检测 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/ge!2233 个月前