| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
【PR】feat:dump error message优化 Co-authored-by: yring_8<yangrui1@huawei.com> # message auto-generated for no-merge-commit merge: !2058 merge master into master 【PR】feat:dump error message优化 Created-by: yring_8 Commit-by: yring_8 Merged-by: cann-robot Description: # Pull Request ## 描述 CANN异常场景下返回的Error Msg信息内容可读性较差,导致用户难以理解,需要对返回的错误信息进行优化。 可能由用户使用不当引起的错误,要上报用户类错误 (1) Error Message 规则: Error Message是通过aclGetRecentErrMsg()接口获取当前所有的错误信息,相对API的返回值而言,包括最近所有的错误信息,含错误码、问题描述、可能原因及解决方案等。 (2) 错误分类 Error Message分为用户错误和内部错误,每类用户错误有独立的Error Code,用户错误的Error Message必须能指导用户能自闭环用户问题。 用户错误:Error Code分段 0000~8999 内部错误:Error Code分段 9000~9999 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 UT验证+HLT验证+example验证 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/runtime!2058 | 1 个月前 | |
fix: 校验dump路径校验;调整日志级别 Co-authored-by: yring_8<yangrui1@huawei.com> # message auto-generated for no-merge-commit merge: !2451 merge master into master fix: 校验dump路径校验;调整日志级别 Created-by: yring_8 Commit-by: yring_8 Merged-by: cann-robot Description: # Pull Request ## 描述 背景1:aclopStartDumpArgs接口没有校验路径权限,而是到实际dump数据的时候才校验。 处理方案:在aclopStartDumpArgs接口中同步校验dump路径权限,提前提示用户发现问题。 背景2:exception dump关键日志级别需要调整至ERROR级别。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> 不涉及 ## 如何测试 描述测试此变更的步骤和前提条件: 1. 使用adump的example样例0_adump_args,构造路径无权限。 2. 触发exception dump,观察plog日志。 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/runtime!2451 | 1 个月前 | |
【PR】feat:dump error message优化 Co-authored-by: yring_8<yangrui1@huawei.com> # message auto-generated for no-merge-commit merge: !2058 merge master into master 【PR】feat:dump error message优化 Created-by: yring_8 Commit-by: yring_8 Merged-by: cann-robot Description: # Pull Request ## 描述 CANN异常场景下返回的Error Msg信息内容可读性较差,导致用户难以理解,需要对返回的错误信息进行优化。 可能由用户使用不当引起的错误,要上报用户类错误 (1) Error Message 规则: Error Message是通过aclGetRecentErrMsg()接口获取当前所有的错误信息,相对API的返回值而言,包括最近所有的错误信息,含错误码、问题描述、可能原因及解决方案等。 (2) 错误分类 Error Message分为用户错误和内部错误,每类用户错误有独立的Error Code,用户错误的Error Message必须能指导用户能自闭环用户问题。 用户错误:Error Code分段 0000~8999 内部错误:Error Code分段 9000~9999 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 UT验证+HLT验证+example验证 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/runtime!2058 | 1 个月前 | |
【PR】: add adump ut 90%+ Co-authored-by: newstarzj<zhangjie230@huawei.com> # message auto-generated for no-merge-commit merge: !1953 merge master_ut_adump into master 【PR】: add adump ut 90%+ Created-by: newstarzj Commit-by: newstarzj Merged-by: cann-robot Description: # Pull Request ## 描述 add adump ut 90%+ ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue NA ## 如何测试 UT ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 NA See merge request: cann/runtime!1953 | 1 个月前 | |
【PR】: fix:dump配置校验优化 Co-authored-by: yring_8<> # message auto-generated for no-merge-commit merge: !2270 merge master into master 【PR】: fix:dump配置校验优化 Created-by: yring_8 Commit-by: yring_8 Merged-by: cann-robot Description: # Pull Request ## 描述 1. dump_scene=watcher时,不校验dump_level, dump_data, dump_kernel_data, dump_step, dump_stats字段冲突性,这些字段忽略不使能功能。 2. dump_scene=exception时,不校验其他字段冲突性,这些字段忽略不使能功能。 3. 纯dump_kernel_data解析修复BUG问题。 4. dump_scene=watcher时,优化dump_list的报错信息。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> 不涉及 ## 如何测试 描述测试此变更的步骤和前提条件: 1. 构造acl.json配置文件,使能相关功能,是否会被拦截。 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/runtime!2270 | 1 个月前 | |
【PR】: add adump ut 90%+ Co-authored-by: newstarzj<zhangjie230@huawei.com> # message auto-generated for no-merge-commit merge: !1953 merge master_ut_adump into master 【PR】: add adump ut 90%+ Created-by: newstarzj Commit-by: newstarzj Merged-by: cann-robot Description: # Pull Request ## 描述 add adump ut 90%+ ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue NA ## 如何测试 UT ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如: feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 NA See merge request: cann/runtime!1953 | 1 个月前 | |
【fix】adump: fix device memory leak in CopyHostToDevice error path Co-authored-by: abc1433233<19946720495@163.com> # message auto-generated for no-merge-commit merge: !3082 merge fix-adump-copyhosttodevice-free into master 【fix】adump: fix device memory leak in CopyHostToDevice error path Created-by: abc1433233 Commit-by: abc1433233 Merged-by: cann-robot Description: ## 问题描述 DumpMemory::CopyHostToDevice(src/dfx/adump/adump/impl/dump_memory.cpp)通过 rtMalloc(..., RT_MEMORY_HBM, ...) 申请 **device 内存**,但在 rtMemcpy 失败的 错误处理分支中,错误地使用了 FreeHost(即 rtFreeHost,**host 内存**释放接口) 来释放该 device 指针。 rtFreeHost 不能释放 device 内存:运行时会拒绝该调用并返回错误,已申请的 HBM 不会被回收,因此每次 H2D 拷贝失败都会泄漏一块 device 内存。在长时间运行的训练/ 推理进程中反复 dump,该错误路径累积泄漏,存在导致 OOM 的风险。 ## 根因 本函数疑似复制自同文件的三个相邻函数(CopyHostToHost / CopyDeviceToHost / CopyDeviceToHostEx),但漏改了释放接口: - 那三个函数申请的是 **host** 内存,配 FreeHost 正确; - 唯独 CopyHostToDevice 申请的是 **device** 内存,仍沿用了 FreeHost,导致接口与分配不匹配。 佐证: - 头文件 runtime/mem.h 中,rtMalloc/rtFree 操作 device 内存,rtMallocHost/ rtFreeHost 操作 host 内存,device 与 host 接口需配对使用。 - 调用方 operator_dumper.cpp 在使用本函数返回值时,全程以 FreeDevice 释放, 即上层已将其返回值按 device 内存处理;仅本函数内部错误路径写错。 ## 真机验证(910B3) 编写独立程序申请 256MB device HBM,故意用 rtFreeHost 释放,观察返回码与显存: | 时间点 | HBM 占用 (MB) | 返回码 | | --- | --- | --- | | 基线 | 3429 | — | | rtMalloc 256MB 后 | 3725 (+296) | rtMalloc ret=0x0 | | rtFreeHost(devPtr) 后 | 3726 | **rtFreeHost ret=0x1A1F8(失败)** | | 随后 rtFree(devPtr) | — | rtFree ret=0x0(成功,显存回收) | 结论:rtFreeHost 对 device 指针返回错误码 0x1A1F8 且 256MB 显存未回收,确认存在 泄漏;改用 rtFree 可正常回收,证明该内存本应由 rtFree 释放。 ## 修复 将错误路径的 FreeHost(devMem) 改为 FreeDevice(devMem),使释放接口与 rtMalloc(RT_MEMORY_HBM) 的分配接口匹配。 ## 回归测试 在 dump_memory_utest.cpp 新增用例 Test_CopyHostToDevice_MemcpyFail_ReleaseWithRtFree:mock rtMemcpy 失败, 断言错误路径调用 rtFree 一次、且从不调用 rtFreeHost。 - 在**未修复**代码上运行:用例触发 mockcpp never() 违例并失败 (Invoking an invocation which should never be invoked: method(rtFreeHost))。 - 在**修复后**代码上运行:用例通过,adump UT 全部 604 项用例 PASS。 See merge request: cann/runtime!3082 | 8 天前 | |
Initial commit | 6 个月前 | |
add opensource code Co-authored-by: duanpengliang<duanpengliang@huawei.com> | 5 个月前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 1 个月前 | ||
| 1 个月前 | ||
| 1 个月前 | ||
| 1 个月前 | ||
| 1 个月前 | ||
| 1 个月前 | ||
| 8 天前 | ||
| 6 个月前 | ||
| 5 个月前 |