文件最后提交记录最后更新时间
fix(super_kernel): prioritize default nodes in customize heap 10 天前
fix(super_kernel): prioritize default nodes in customize heap 10 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
!413 merge l0-ar-1 into master 【feat】: Support L0 exception to store error sub operator information in SK Created-by: Achilles_d Commit-by: Achilles_d Merged-by: cann-robot Description: # Pull Request ## 描述 Support L0 exception to store error sub operator information in SK ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. 2. ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/graph-autofusion!4134 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Refactoring the dump json file code and fixing the printing of log information Co-authored-by: Achilles_d<duanchengyuan@huawei.com> # message auto-generated for no-merge-commit merge: !359 merge cg-c into master Refactoring the dump json file code and fixing the printing of log information Created-by: Achilles_d Commit-by: Achilles_d Merged-by: cann-robot Description: # Pull Request ## 描述 1. 重构dump json的代码,把graph里调用rts接口的部分抽取出来,供多次调用 2. 修复scope 融合失败原因打印日志信息 3. 修复taskqueue里打印信息缺失 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. 2. ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/graph-autofusion!35922 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
增加profiling落盘路径 Co-authored-by: huxj153<huxiujuan@huawei.com> # message auto-generated for no-merge-commit merge: !265 merge f/profiling_path into master 增加profiling落盘路径 Created-by: huxj153 Commit-by: huxj153 Merged-by: cann-robot Description: # Pull Request ## 描述 增加profiling落盘路径 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. 2. ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/graph-autofusion!2651 个月前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
feat: implement DEBUG_PER_OP_MAX_CORE_NUM for per-operator SK fusion validation Add debug feature to split each fusible kernel into independent scope for validating whether individual operators meet SK fusion requirements. Changes: - Add device core number utilities in sk_common (direct ACL API calls, no cache) - Refactor LockDetector::GetDeviceCores() to use sk_common implementation - Add PerOpMaxCoreSplitPass for per-operator scope splitting - Auto-enable DEBUG_CROSS_CORE_SYNC_CHECK when DEBUG_PER_OP_MAX_CORE_NUM is set - Force kernelType to MIX_AIC_1_2 in debug mode - Apply actual core count for ScheMode=1 ops, max cores for ScheMode=0 ops - Handle pure-V kernel core conversion: vecNum -> cubeNum = (vecNum+1)/2 - Skip deadlock detection in per-op debug mode (each op is independent scope) - Add DEBUG_PER_OP_MAX_CORE to ScopeBreakReason enum 3 天前
feat(aot): support configurable memory wait fusion gating Co-authored-by: yrz1027<yangruizhi5@huawei.com> # message auto-generated for no-merge-commit merge: !266 merge feat/memwait-choice-dev into master feat(aot): support configurable memory wait fusion gating Created-by: yrz1027 Commit-by: yrz1027 Merged-by: cann-robot Description: # Pull Request ## 描述 本次 PR 主要补充 value memory wait 在 SuperKernel 融合链路中的策略控制,并将相关 aggressive fusion 选项统一收敛到 AGGRESSIVE_OPT_STRATEGIES。 主要变更: - 将原 TASK_BREAKER_BYPASS 扩展为 AGGRESSIVE_OPT_STRATEGIES,统一承载 eventBreakerBypassvalueBreakerBypasstaskBreakerBypass。 - 新增 valueBreakerBypass 位掩码策略,用于控制 paired wait 和 unpaired wait 的可融行为。 - 在 graph 后处理阶段按 memory wait rule 做配对检查,并将 NODE_MEMORY_WRITE/NODE_MEMORY_WAIT 归一化为 NODE_NOTIFY/NODE_RESET/NODE_WAIT 后再进入后续链路。 - deadlock detector 改为持有 options manager,并在检测时自行读取 AGGRESSIVE_OPT_STRATEGIES,避免后续新增选项时继续透传参数。 - 保留 task breaker bypass 行为,但通过 aggressive opts 读取。 - 补充 graph、scope split、lock detector、task builder、options manager 等相关 UT 覆盖。 - 修复 dump json UT 中重复 SuperKernelGraphTest fixture 名称导致全量 UT 运行时内存错误的问题。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [x] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue 无 ## 如何测试 描述测试此变更的步骤和前提条件: 1. git diff --check 2. bash build.sh --module=superkernel --impl=cpp --ut -j 8 测试结果: - cpp UT 全量通过:700 tests passed。 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 See merge request: cann/graph-autofusion!2661 个月前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
fix(superkernel): refine bind map failure reasons 4 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Refactoring the dump json file code and fixing the printing of log information Co-authored-by: Achilles_d<duanchengyuan@huawei.com> # message auto-generated for no-merge-commit merge: !359 merge cg-c into master Refactoring the dump json file code and fixing the printing of log information Created-by: Achilles_d Commit-by: Achilles_d Merged-by: cann-robot Description: # Pull Request ## 描述 1. 重构dump json的代码,把graph里调用rts接口的部分抽取出来,供多次调用 2. 修复scope 融合失败原因打印日志信息 3. 修复taskqueue里打印信息缺失 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. 2. ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/graph-autofusion!35922 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
fix the resource release of modelabel 1 天前
Simplify the resource release of modelabel 1 天前
feat: implement DEBUG_PER_OP_MAX_CORE_NUM for per-operator SK fusion validation Add debug feature to split each fusible kernel into independent scope for validating whether individual operators meet SK fusion requirements. Changes: - Add device core number utilities in sk_common (direct ACL API calls, no cache) - Refactor LockDetector::GetDeviceCores() to use sk_common implementation - Add PerOpMaxCoreSplitPass for per-operator scope splitting - Auto-enable DEBUG_CROSS_CORE_SYNC_CHECK when DEBUG_PER_OP_MAX_CORE_NUM is set - Force kernelType to MIX_AIC_1_2 in debug mode - Apply actual core count for ScheMode=1 ops, max cores for ScheMode=0 ops - Handle pure-V kernel core conversion: vecNum -> cubeNum = (vecNum+1)/2 - Skip deadlock detection in per-op debug mode (each op is independent scope) - Add DEBUG_PER_OP_MAX_CORE to ScopeBreakReason enum 3 天前
refactor(aot): align scope/update logging semantics and diagnostics Co-authored-by: yrz1027<yangruizhi5@huawei.com> # message auto-generated for no-merge-commit merge: !267 merge enhance/log-output into master refactor(aot): align scope/update logging semantics and diagnostics Created-by: yrz1027 Commit-by: yrz1027 Merged-by: cann-robot Description: # Pull Request ## 描述 本次 PR 主要收敛 AOT 路径中的日志语义、命名一致性和 update/scope 诊断信息,提升后续问题定位与可视化消费的一致性,同时不引入新的功能路径。 主要改动包括: - 收敛 node/task 语义边界: - sk_node 层改为以 node 概念为主 - sk_scope_postprocess 中处理 SuperKernelBaseNode* 集合的函数、局部变量和日志统一改为 nodes 语义 - 收敛 eventId 打印格式: - 统一为十六进制风格,降低不同模块之间的理解成本 - 收敛 scope split 落盘结果: - 为四个 pass 增加明确的头信息,避免同一个日志文件中多轮结果难以区分 - 收敛 update 日志职责: - optimizer 只保留 scope/stream 级 update 生命周期信息 - node 层统一输出 node update result - graph 不再越界补充 scope 语义 - 统一 node update result 的格式化: - 针对 KERNEL / VALUE_WRITE / VALUE_WAIT / INVALID 分别打印最有意义的结果字段 - 避免无关字段的机械平铺 - 补齐 update view 所需的最小关联信息: - 以 nodeId 为主键,结合已有 scope 信息做前后态联动 - 为后续图构建和数据库化消费准备稳定日志基础 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> 待补充 ## 如何测试 描述测试此变更的步骤和前提条件: 1. 执行相关 AOT UT 定向回归,重点检查日志相关路径: - bash build.sh --cpp_utest --test_case='*ScopeSplit*:*ScopePostprocess*:*Graph*:*Node*' 2. 人工检查生成的日志内容,确认以下语义已收敛: - scope split 四个 pass 有明确头信息 - eventId 统一为十六进制格式 - node update resultnode 层输出,且不同 type 打印字段符合预期 3. 如需补充精确命令或样例路径,请结合本地环境填写 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [ ] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [ ] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 - 本次改动重点是日志职责边界和信息表达收敛,不改变 memory wait 主功能语义。 - 当前工作区仍有未跟踪文件 .codexupdate-view-registry-guide.md,不属于本 PR 内容。 See merge request: cann/graph-autofusion!2671 个月前
fix(superkernel): support arch-specific scope kernel symbols Build scope kernels with architecture-specific symbol suffixes for all supported SK kernel arches, including dav-2201. Add shared arch detection helpers and select the matching scope kernel launch implementation at runtime. Update scope kernel parsing to recognize suffixed begin/end/placeholder symbols, keep DAV_3510 split-core handling on the unified arch helper, and cover the new suffix behavior with AOT unit tests. 5 天前
style: unify aot code style and improve debug logging clarity Co-authored-by: yrz1027<yangruizhi5@huawei.com> # message auto-generated for no-merge-commit merge: !126 merge fix/styple-log-dev into master style: unify aot code style and improve debug logging clarity Created-by: yrz1027 Commit-by: yrz1027 Merged-by: cann-robot Description: # Pull Request 描述 本次变更聚焦于 super_kernel aot 相关模块的代码风格统一与可读性改进,并补充调试日志可观测性。 主要包含两部分: 引入仓库级 .clang-format,统一部分文件格式规范。 将部分注释转换为英文,并补充/优化调试日志,便于问题定位与团队协作。 影响范围: super_kernel/src/aot 下多个核心头文件与实现文件。 super_kernel/tests/aot/ut/CMakeLists.txt。 新增 .clang-format。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [x] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 安装对应的runtime、torchair包等,运行端到端联调用例,测试通过无plog error产生 运行build.sh --cpp_utest ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 在此添加任何其他关于本次 PR 的说明。 See merge request: cann/graph-autofusion!1262 个月前
fix(aot): preserve value-memory events in scope postprocess Co-authored-by: yrz1027<yangruizhi5@huawei.com> # message auto-generated for no-merge-commit merge: !356 merge fix/mem-write-zero-scope-postprocess into master fix(aot): preserve value-memory events in scope postprocess Created-by: yrz1027 Commit-by: yrz1027 Merged-by: cann-robot Description: # Pull Request ## 描述 修复 scope postprocess 阶段对已携带 addrValue 的 value-memory event 节点再次申请普通 event memory resource 的问题,并统一 memory eventId 相关诊断日志为十六进制打印。 本次变更: - 对 NODE_NOTIFYNODE_WAITNODE_RESET 增加 addrValue 检查,已存在 event memory resource 时跳过重复申请。 - 保留 write-only VALUE_WRITE notify 节点,避免其被普通 notify/wait 配对取消逻辑误删。 - 对原本存在 paired waits 且当前 scope 内 wait 已平衡取消的 notify,仍允许同步取消。 - 将 sk_graph.cpp 中遗漏的 memory eventId 日志从 %lu 统一为 0x%lx。 - 补充 C++ UT 覆盖 pre-applied addrValue 跳过路径和 eventId 十六进制日志格式。 影响范围集中在 AOT SuperKernel scope postprocess 的 event memory 处理逻辑和 memory event 诊断日志。 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [ ] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> ## 如何测试 描述测试此变更的步骤和前提条件: 1. git diff --check 2. bash build.sh -u --impl=cpp --module=superkernel --no-autofuse --test_case=SuperKernelScopePostprocessTest.ApplyEventMemoryForFilteredNodes_SkipPreAppliedAddrValue:SuperKernelGraphTest.PostProcessMemoryNode_UnknownFlagTreatedAsNoNotify ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 本 PR 目标分支为 master。 See merge request: cann/graph-autofusion!35623 天前
refactor(aot): align scope/update logging semantics and diagnostics Co-authored-by: yrz1027<yangruizhi5@huawei.com> # message auto-generated for no-merge-commit merge: !267 merge enhance/log-output into master refactor(aot): align scope/update logging semantics and diagnostics Created-by: yrz1027 Commit-by: yrz1027 Merged-by: cann-robot Description: # Pull Request ## 描述 本次 PR 主要收敛 AOT 路径中的日志语义、命名一致性和 update/scope 诊断信息,提升后续问题定位与可视化消费的一致性,同时不引入新的功能路径。 主要改动包括: - 收敛 node/task 语义边界: - sk_node 层改为以 node 概念为主 - sk_scope_postprocess 中处理 SuperKernelBaseNode* 集合的函数、局部变量和日志统一改为 nodes 语义 - 收敛 eventId 打印格式: - 统一为十六进制风格,降低不同模块之间的理解成本 - 收敛 scope split 落盘结果: - 为四个 pass 增加明确的头信息,避免同一个日志文件中多轮结果难以区分 - 收敛 update 日志职责: - optimizer 只保留 scope/stream 级 update 生命周期信息 - node 层统一输出 node update result - graph 不再越界补充 scope 语义 - 统一 node update result 的格式化: - 针对 KERNEL / VALUE_WRITE / VALUE_WAIT / INVALID 分别打印最有意义的结果字段 - 避免无关字段的机械平铺 - 补齐 update view 所需的最小关联信息: - 以 nodeId 为主键,结合已有 scope 信息做前后态联动 - 为后续图构建和数据库化消费准备稳定日志基础 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新功能 - [ ] 💄 代码风格更新(格式化,局部变量) - [x] ♻️ 重构(既不修复错误也不增加功能的代码变动) - [ ] 📦 构建过程或辅助工具的变动 - [ ] 📝 文档内容更新 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在当前页面的右侧'关联Issue'部分添加相应Issue链接,并勾选'合并后关闭已关联的 Issue'选项。 --> 待补充 ## 如何测试 描述测试此变更的步骤和前提条件: 1. 执行相关 AOT UT 定向回归,重点检查日志相关路径: - bash build.sh --cpp_utest --test_case='*ScopeSplit*:*ScopePostprocess*:*Graph*:*Node*' 2. 人工检查生成的日志内容,确认以下语义已收敛: - scope split 四个 pass 有明确头信息 - eventId 统一为十六进制格式 - node update resultnode 层输出,且不同 type 打印字段符合预期 3. 如需补充精确命令或样例路径,请结合本地环境填写 ## 核对清单 <!-- [x] 表示选中 --> - [x] 我的代码遵循了项目的代码风格 - [ ] 我已对代码进行了自测 - [ ] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签(如:feat:, fix:) - [ ] 我已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 ## 其他信息 - 本次改动重点是日志职责边界和信息表达收敛,不改变 memory wait 主功能语义。 - 当前工作区仍有未跟踪文件 .codexupdate-view-registry-guide.md,不属于本 PR 内容。 See merge request: cann/graph-autofusion!2671 个月前
feat: implement DEBUG_PER_OP_MAX_CORE_NUM for per-operator SK fusion validation Add debug feature to split each fusible kernel into independent scope for validating whether individual operators meet SK fusion requirements. Changes: - Add device core number utilities in sk_common (direct ACL API calls, no cache) - Refactor LockDetector::GetDeviceCores() to use sk_common implementation - Add PerOpMaxCoreSplitPass for per-operator scope splitting - Auto-enable DEBUG_CROSS_CORE_SYNC_CHECK when DEBUG_PER_OP_MAX_CORE_NUM is set - Force kernelType to MIX_AIC_1_2 in debug mode - Apply actual core count for ScheMode=1 ops, max cores for ScheMode=0 ops - Handle pure-V kernel core conversion: vecNum -> cubeNum = (vecNum+1)/2 - Skip deadlock detection in per-op debug mode (each op is independent scope) - Add DEBUG_PER_OP_MAX_CORE to ScopeBreakReason enum 3 天前
feat: implement DEBUG_PER_OP_MAX_CORE_NUM for per-operator SK fusion validation Add debug feature to split each fusible kernel into independent scope for validating whether individual operators meet SK fusion requirements. Changes: - Add device core number utilities in sk_common (direct ACL API calls, no cache) - Refactor LockDetector::GetDeviceCores() to use sk_common implementation - Add PerOpMaxCoreSplitPass for per-operator scope splitting - Auto-enable DEBUG_CROSS_CORE_SYNC_CHECK when DEBUG_PER_OP_MAX_CORE_NUM is set - Force kernelType to MIX_AIC_1_2 in debug mode - Apply actual core count for ScheMode=1 ops, max cores for ScheMode=0 ops - Handle pure-V kernel core conversion: vecNum -> cubeNum = (vecNum+1)/2 - Skip deadlock detection in per-op debug mode (each op is independent scope) - Add DEBUG_PER_OP_MAX_CORE to ScopeBreakReason enum 3 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
refactor: extract ApplyPerOpMaxCoreNum with validation logging 3 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前
Adapt profiling to different chip types and fix the model ID as a unique model 1 天前