ops-transformer_8242/mc2/allto_allv_grouped_mat_mul/op_host · zhuzemao/ops-transformer_8242 - AtomGit

文件	最后提交记录	最后更新时间
config	Arch编码更新 Co-authored-by: hwx805026<hanming9@h-partners.com> # message auto-generated for no-merge-commit merge: !1120 merge master into master Arch编码更新 Created-by: jerry_ming Commit-by: hwx805026 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!1120	4 个月前
op_tiling	alltoallvgmm非量化算子性能优化：改调用量化模板 Co-authored-by: libohao6<libohao3@huawei.com> # message auto-generated for no-merge-commit merge: !5243 merge use_quant_compute_template_v2 into master alltoallvgmm非量化算子性能优化：改调用量化模板 Created-by: libohao6 Commit-by: libohao6 Merged-by: cann-robot Description: ## 描述 alltoallvgmm非量化算子性能优化：改调用量化模板 ## 关联的Issue [Requirement\|需求建议]: alltoallvgmm非量化算子性能优化：改调用量化模板 #2732 ## 测试二级冒烟、性能测试。 ## 文档更新不涉及。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # Ascend C 算子代码检视报告 ## PR概述 \| 项目 \| 内容 \| \|------\|------\| \| PR标题 \| alltoallvgmm非量化算子性能优化:改调用量化模板 \| \| PR编号 \| #5243 \| \| 分支 \| use_quant_compute_template_v2 → master \| \| 变更文件数 \| 17个文件 \| \| 代码行变更 \| +643/-822 (主要变更) \| \| Head SHA \| 2a25fecc851b57a680f1a03742a99e71a6401256 \| ## 代码概要 ### 侧别识别结果 \| 侧别 \| 文件数 \| 文件类型 \| \|------\|--------\|----------\| \| Kernel侧 \| 8个 \| `.h`/`.cpp` (含 __aicore__ 标记) \| \| Tiling侧 \| 6个 \| `.cpp`/`.h` (Host侧Tiling逻辑) \| \| 配置文件 \| 3个 \| CMakeLists.txt, tiling_key.h \| ### Kernel侧关键文件 1. `mc2/3rd/grouped_matmul/op_kernel/gqmm_cube_on_the_fly.h` - 量化模式判断逻辑重构 2. `mc2/allto_allv_grouped_mat_mul/op_kernel/arch22/allto_allv_grouped_mat_mul.cpp` - Kernel入口重构 3. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/a2av_gmm_utils.h` - 类型大小宏定义 4. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/communication/hccl_a2av_op.h` - 核间同步新增 5. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/compute/quant_grouped_matmul.h` - 参数新增nullptr检查 6. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/scheduler/a2av_gmm_scheduler.h` - workspace计算新增X_TYPE_SIZE ### Tiling侧关键文件 1. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling.cpp` - Tiling实现重构(大量变更) 2. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling.h` - Tiling头文件重构 3. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling_base.h` - Tiling基类继承重构 ### 领域特征 MC² 通算融合算子：AlltoAllv + GroupedMatmul 融合 - 核间同步: `SyncAll<false>()` 新增 - HCCL通信: `HcclA2avOp` 模板类 - 量化计算: `QuantGroupedMatmul` 模板类 --- ## 条款级检视结果 ### 1. SEC-2.1: 有符号整数运算不溢出状态: PASS 置信度: HIGH 分析: 检查 diff 中的整数运算: - `a2av_gmm_scheduler.h` 第49行: `uint64_t commOutLen` 存储乘法结果 - `A * H1` 乘法运算,变量来自TilingData (已校验) - 结果存储在 `uint64_t` (足够大) - 业务约束下不会溢出证据链: - 变量来源: TilingData参数,已在Tiling阶段校验范围 - 结果类型: uint64_t,范围足够大 - 业务约束: 最大数据量 batch×seqLen×headDim ≈ 67MB,远小于 UINT64_MAX --- ### 2. SEC-2.2: 无符号整数运算不回绕状态: PASS 置信度: HIGH 分析: - `uint64_t` 用于GM偏移/大小计算 - `CeilDiv` 返回 `uint64_t` - `PACK_FACTOR` 宏定义为 1U/2U - 业务约束下不会回绕 --- ### 3. SEC-2.3: 除法/余数运算除零保护状态: PASS 置信度: HIGH 分析: - `CeilDiv` 函数: `(a + b - 1) / b` - 除数 `b` 来自编译期常量 `PACK_FACTOR` (1U/2U) 或 TilingData - 符合Kernel侧排除规则: 除数为编译期常量或TilingData参数 Kernel侧排除规则验证: \| 排除条件 \| 参数模式 \| 结果 \| \|---------\|---------\|------\| \| 除数来自TilingData \| `tilingData->taskTilingInfo.` \| PASS \| \| 编译期常量 \| `PACK_FACTOR` 宏定义 \| PASS \| --- ### 4. SEC-3.1: 禁止使用未初始化的变量状态: PASS 置信度: HIGH 分析: - `userWorkspace` = `GetUserWorkspace(workspaceGM)` - 函数返回值初始化 - `pipe` = TPipe对象 - 默认构造 - `a2avGmmScheduler` 模板类对象 - 后续调用Init() PASS* - 所有变量正确初始化 --- ### 5. SEC-3.5: 指针使用前判空状态: PASS 置信度: HIGH 改进点: 新增nullptr检查 (代码质量提升) 代码片段 (`quant_grouped_matmul.h` 第59-67行): ```cpp if (xScaleGM != nullptr) { xScaleGlobalBuffer_.SetGlobalBuffer((__gm__ scaleType )xScaleGM); } if (weightScaleGM != nullptr) { wScaleGlobalBuffer_.SetGlobalBuffer((__gm__ scaleType )weightScaleGM); } ``` 分析: - PR新增了 `xScaleGM` 和 `weightScaleGM` 的 nullptr 检查 - 符合 SEC-3.5 规范: 指针使用前必须判空 - 这是代码质量改进,不是新风险证据链: - 新增代码: nullptr 检查 → SetGlobalBuffer - 原代码可能直接调用 SetGlobalBuffer 无判空 → 已修复 --- ### 6. TOPK-8: gm内存偏移或大小必须用int64表示状态: PASS 置信度: HIGH 分析: - `commOutLen` = `uint64_t` (符合规范) - `groupListSize` = `uint64_t` (符合规范) - 所有GM偏移/大小使用 uint64_t/int64_t --- ### 7. TOPK-11: 通信算子融合需核间同步状态: PASS 置信度: HIGH 改进点: 新增核间同步 (代码质量提升) 代码片段 (`hccl_a2av_op.h` 第274-275行): ```cpp __aicore__ inline void End() { SyncAll<false>(); // 新增的核间同步 if ASCEND_IS_AIC { return; } ``` 分析: - PR新增 `SyncAll<false>()` 在通信结束后 - 符合 TOPK-11 规范: 通信算子融合需核间同步 - 这是代码质量改进,不是新风险证据链: - AlltoAllv通信结束后 → SyncAll确保所有核完成 --- ### 8. MC2-01: 核间同步必要性状态: PASS 置信度: HIGH 分析: - `SyncAll<false>()` 位于通信结束后(End函数) - 确保下一轮计算开始前通信数据已就绪 - 同步屏障正确放置 --- ### 9. MC2-03: SyncAll同步生效状态: PASS 置信度: HIGH 分析: - `SyncAll<false>()` 参数说明: - `false`: 同步所有核含AIC - `true`: 仅同步AIV - 使用 `false` 确保通算融合场景所有核同步 --- ### 10. MC2-11: 量化精度保护状态: PASS 置信度: HIGH 改进点: 变量声明位置优化 (代码质量提升) 代码片段 (`gqmm_cube_on_the_fly.h` 第145-160行): ```cpp } else { if (gmmQuantParams_->aQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT) && gmmQuantParams_->bQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT)) { } else if (...) { __gm__ scaleType scaleB = ... // scaleB 声明移至分支内部 ... } ``` 分析: - PR将 `scaleB` 变量声明从公共区域移至各分支内部 - 避免未初始化访问风险 - 符合 SEC-3.1 和 MC2-11 规范 - 这是代码质量改进,不是新风险 --- ### 11. MC2-18: HCCL通信生命周期与参数状态: PASS 置信度: HIGH 分析: - PR新增 `SyncAll<false>()` 不涉及生命周期变更 - Kernel入口使用阻塞模式: `HcclA2avOp<half, true, ...>` - `true` 模板参数表示阻塞模式 - 自动包含 Commit/Wait - 生命周期由调度器管理,正确 --- ### 12. API-12: CrossCoreSetFlag/WaitFlag必须对称状态: PASS 置信度: HIGH 分析: - PR新增 `SyncAll<false>()` 不涉及 CrossCoreSetFlag/WaitFlag - 不存在该API使用变更 --- ## 发现的问题和建议 ### 无高风险问题所有条款检视均通过,代码质量良好。 ### 代码改进点以下改进提升了代码安全性/规范性: \| 改进点 \| 条款 \| 原状态 \| 新状态 \| \|--------\|------\|---------\|---------\| \| 新增nullptr检查 \| SEC-3.5 \| 无判空 \| 有判空 \| \| 新增核间同步 \| TOPK-11 \| 无同步 \| 有同步 \| \| 变量声明位置优化 \| SEC-3.1 \| 公共声明 \| 分支内声明 \| ### 建议关注的代码点 1. 空分支处理* (`gqmm_cube_on_the_fly.h` 第145-148行): ```cpp if (gmmQuantParams_->aQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT) && gmmQuantParams_->bQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT)) { // 空分支 } ``` - 空分支可能表示 DEFAULT 模式无需特殊处理 - 建议: 添加注释说明 DEFAULT 模式的预期行为 2. SetValue 使用 (`quant_grouped_matmul.h` 第96行): ```cpp groupListGlobalBuffer_.SetValue(GROUP_LIST_INDEX, groupListToken); ``` - `SetValue` 是逐元素操作,性能较低 - 但此场景是 groupList 更新,数据量小 - 注释说明: "flush groupList到GM确保Cube引擎读到最新数据" - 符合特定场景需求 --- ## 总结与风险评估 ### 总体评估 \| 维度 \| 评分 \| 说明 \| \|------\|------\|------\| \| 安全编码规范 \| PASS \| 所有条款通过,无高风险问题 \| \| API使用正确性 \| PASS \| SyncAll参数正确,HCCL模式正确 \| \| 性能优化 \| PASS \| 核间同步改进,指针判空改进 \| \| 精度标准 \| PASS \| 量化逻辑正确,变量初始化改进 \| \| Tiling设计 \| PASS \| 参数类型正确,结构重构合理 \| \| 代码规范 \| PASS \| 变量声明改进,符合规范 \| ### 风险等级无高风险问题 - 代码质量良好,符合安全编码规范。 ### 主要改进总结本次 PR 的主要改进: 1. 核间同步增强: 新增 `SyncAll<false>()` 确保通算融合场景同步 2. 指针安全: 新增 nullptr 检查避免空指针解引用 3. 变量初始化: scaleB 变量声明移至分支内部避免未初始化 ### 建议 1. 为 DEFAULT 模式空分支添加注释说明预期行为 2. 继续关注 SetValue 在大数据量场景的性能影响 --- ## 附录 ### 检视执行信息 - 检视时间: 2026-05-25 - 检视工具: ascendc-code-review skill - 检视方法论: 假设检验驱动 - 条款覆盖: 12条 (100%覆盖) - 置信度标注: HIGH (所有条款) ### 变更文件清单 \| 文件 \| 侧别 \| 变更类型 \| \|------\|------\|----------\| \| gqmm_cube_on_the_fly.h \| Kernel \| 量化逻辑重构 \| \| allto_allv_grouped_mat_mul.cpp \| Kernel \| 入口重构 \| \| a2av_gmm_utils.h \| Kernel \| 宏定义新增 \| \| hccl_a2av_op.h \| Kernel \| 核间同步新增 \| \| quant_grouped_matmul.h \| Kernel \| nullptr检查新增 \| \| a2av_gmm_scheduler.h \| Kernel \| workspace计算改进 \| \| allto_allv_grouped_mat_mul_tiling.cpp \| Tiling \| 大量重构 \| \| allto_allv_grouped_mat_mul_tiling.h \| Tiling \| 头文件重构 \| \| allto_allv_grouped_mat_mul_tiling_base.h \| Tiling \| 基类重构 \| \| arch22/..._tiling_a3.cpp \| Tiling \| 架构适配 \| \| arch35/..._tiling_a5.cpp \| Tiling \| 架构适配 \| --- 报告生成完成 See merge request: cann/ops-transformer!5243	5 天前
CMakeLists.txt	alltoallvgmm非量化算子性能优化：改调用量化模板 Co-authored-by: libohao6<libohao3@huawei.com> # message auto-generated for no-merge-commit merge: !5243 merge use_quant_compute_template_v2 into master alltoallvgmm非量化算子性能优化：改调用量化模板 Created-by: libohao6 Commit-by: libohao6 Merged-by: cann-robot Description: ## 描述 alltoallvgmm非量化算子性能优化：改调用量化模板 ## 关联的Issue [Requirement\|需求建议]: alltoallvgmm非量化算子性能优化：改调用量化模板 #2732 ## 测试二级冒烟、性能测试。 ## 文档更新不涉及。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # Ascend C 算子代码检视报告 ## PR概述 \| 项目 \| 内容 \| \|------\|------\| \| PR标题 \| alltoallvgmm非量化算子性能优化:改调用量化模板 \| \| PR编号 \| #5243 \| \| 分支 \| use_quant_compute_template_v2 → master \| \| 变更文件数 \| 17个文件 \| \| 代码行变更 \| +643/-822 (主要变更) \| \| Head SHA \| 2a25fecc851b57a680f1a03742a99e71a6401256 \| ## 代码概要 ### 侧别识别结果 \| 侧别 \| 文件数 \| 文件类型 \| \|------\|--------\|----------\| \| Kernel侧 \| 8个 \| `.h`/`.cpp` (含 __aicore__ 标记) \| \| Tiling侧 \| 6个 \| `.cpp`/`.h` (Host侧Tiling逻辑) \| \| 配置文件 \| 3个 \| CMakeLists.txt, tiling_key.h \| ### Kernel侧关键文件 1. `mc2/3rd/grouped_matmul/op_kernel/gqmm_cube_on_the_fly.h` - 量化模式判断逻辑重构 2. `mc2/allto_allv_grouped_mat_mul/op_kernel/arch22/allto_allv_grouped_mat_mul.cpp` - Kernel入口重构 3. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/a2av_gmm_utils.h` - 类型大小宏定义 4. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/communication/hccl_a2av_op.h` - 核间同步新增 5. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/compute/quant_grouped_matmul.h` - 参数新增nullptr检查 6. `mc2/allto_allv_quant_grouped_mat_mul/op_kernel/mc2_templates/scheduler/a2av_gmm_scheduler.h` - workspace计算新增X_TYPE_SIZE ### Tiling侧关键文件 1. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling.cpp` - Tiling实现重构(大量变更) 2. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling.h` - Tiling头文件重构 3. `mc2/allto_allv_grouped_mat_mul/op_host/op_tiling/allto_allv_grouped_mat_mul_tiling_base.h` - Tiling基类继承重构 ### 领域特征 MC² 通算融合算子：AlltoAllv + GroupedMatmul 融合 - 核间同步: `SyncAll<false>()` 新增 - HCCL通信: `HcclA2avOp` 模板类 - 量化计算: `QuantGroupedMatmul` 模板类 --- ## 条款级检视结果 ### 1. SEC-2.1: 有符号整数运算不溢出状态: PASS 置信度: HIGH 分析: 检查 diff 中的整数运算: - `a2av_gmm_scheduler.h` 第49行: `uint64_t commOutLen` 存储乘法结果 - `A * H1` 乘法运算,变量来自TilingData (已校验) - 结果存储在 `uint64_t` (足够大) - 业务约束下不会溢出证据链: - 变量来源: TilingData参数,已在Tiling阶段校验范围 - 结果类型: uint64_t,范围足够大 - 业务约束: 最大数据量 batch×seqLen×headDim ≈ 67MB,远小于 UINT64_MAX --- ### 2. SEC-2.2: 无符号整数运算不回绕状态: PASS 置信度: HIGH 分析: - `uint64_t` 用于GM偏移/大小计算 - `CeilDiv` 返回 `uint64_t` - `PACK_FACTOR` 宏定义为 1U/2U - 业务约束下不会回绕 --- ### 3. SEC-2.3: 除法/余数运算除零保护状态: PASS 置信度: HIGH 分析: - `CeilDiv` 函数: `(a + b - 1) / b` - 除数 `b` 来自编译期常量 `PACK_FACTOR` (1U/2U) 或 TilingData - 符合Kernel侧排除规则: 除数为编译期常量或TilingData参数 Kernel侧排除规则验证: \| 排除条件 \| 参数模式 \| 结果 \| \|---------\|---------\|------\| \| 除数来自TilingData \| `tilingData->taskTilingInfo.` \| PASS \| \| 编译期常量 \| `PACK_FACTOR` 宏定义 \| PASS \| --- ### 4. SEC-3.1: 禁止使用未初始化的变量状态: PASS 置信度: HIGH 分析: - `userWorkspace` = `GetUserWorkspace(workspaceGM)` - 函数返回值初始化 - `pipe` = TPipe对象 - 默认构造 - `a2avGmmScheduler` 模板类对象 - 后续调用Init() PASS* - 所有变量正确初始化 --- ### 5. SEC-3.5: 指针使用前判空状态: PASS 置信度: HIGH 改进点: 新增nullptr检查 (代码质量提升) 代码片段 (`quant_grouped_matmul.h` 第59-67行): ```cpp if (xScaleGM != nullptr) { xScaleGlobalBuffer_.SetGlobalBuffer((__gm__ scaleType )xScaleGM); } if (weightScaleGM != nullptr) { wScaleGlobalBuffer_.SetGlobalBuffer((__gm__ scaleType )weightScaleGM); } ``` 分析: - PR新增了 `xScaleGM` 和 `weightScaleGM` 的 nullptr 检查 - 符合 SEC-3.5 规范: 指针使用前必须判空 - 这是代码质量改进,不是新风险证据链: - 新增代码: nullptr 检查 → SetGlobalBuffer - 原代码可能直接调用 SetGlobalBuffer 无判空 → 已修复 --- ### 6. TOPK-8: gm内存偏移或大小必须用int64表示状态: PASS 置信度: HIGH 分析: - `commOutLen` = `uint64_t` (符合规范) - `groupListSize` = `uint64_t` (符合规范) - 所有GM偏移/大小使用 uint64_t/int64_t --- ### 7. TOPK-11: 通信算子融合需核间同步状态: PASS 置信度: HIGH 改进点: 新增核间同步 (代码质量提升) 代码片段 (`hccl_a2av_op.h` 第274-275行): ```cpp __aicore__ inline void End() { SyncAll<false>(); // 新增的核间同步 if ASCEND_IS_AIC { return; } ``` 分析: - PR新增 `SyncAll<false>()` 在通信结束后 - 符合 TOPK-11 规范: 通信算子融合需核间同步 - 这是代码质量改进,不是新风险证据链: - AlltoAllv通信结束后 → SyncAll确保所有核完成 --- ### 8. MC2-01: 核间同步必要性状态: PASS 置信度: HIGH 分析: - `SyncAll<false>()` 位于通信结束后(End函数) - 确保下一轮计算开始前通信数据已就绪 - 同步屏障正确放置 --- ### 9. MC2-03: SyncAll同步生效状态: PASS 置信度: HIGH 分析: - `SyncAll<false>()` 参数说明: - `false`: 同步所有核含AIC - `true`: 仅同步AIV - 使用 `false` 确保通算融合场景所有核同步 --- ### 10. MC2-11: 量化精度保护状态: PASS 置信度: HIGH 改进点: 变量声明位置优化 (代码质量提升) 代码片段 (`gqmm_cube_on_the_fly.h` 第145-160行): ```cpp } else { if (gmmQuantParams_->aQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT) && gmmQuantParams_->bQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT)) { } else if (...) { __gm__ scaleType scaleB = ... // scaleB 声明移至分支内部 ... } ``` 分析: - PR将 `scaleB` 变量声明从公共区域移至各分支内部 - 避免未初始化访问风险 - 符合 SEC-3.1 和 MC2-11 规范 - 这是代码质量改进,不是新风险 --- ### 11. MC2-18: HCCL通信生命周期与参数状态: PASS 置信度: HIGH 分析: - PR新增 `SyncAll<false>()` 不涉及生命周期变更 - Kernel入口使用阻塞模式: `HcclA2avOp<half, true, ...>` - `true` 模板参数表示阻塞模式 - 自动包含 Commit/Wait - 生命周期由调度器管理,正确 --- ### 12. API-12: CrossCoreSetFlag/WaitFlag必须对称状态: PASS 置信度: HIGH 分析: - PR新增 `SyncAll<false>()` 不涉及 CrossCoreSetFlag/WaitFlag - 不存在该API使用变更 --- ## 发现的问题和建议 ### 无高风险问题所有条款检视均通过,代码质量良好。 ### 代码改进点以下改进提升了代码安全性/规范性: \| 改进点 \| 条款 \| 原状态 \| 新状态 \| \|--------\|------\|---------\|---------\| \| 新增nullptr检查 \| SEC-3.5 \| 无判空 \| 有判空 \| \| 新增核间同步 \| TOPK-11 \| 无同步 \| 有同步 \| \| 变量声明位置优化 \| SEC-3.1 \| 公共声明 \| 分支内声明 \| ### 建议关注的代码点 1. 空分支处理* (`gqmm_cube_on_the_fly.h` 第145-148行): ```cpp if (gmmQuantParams_->aQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT) && gmmQuantParams_->bQuantMode == static_cast<uint32_t>(Mc2QuantUtils::QuantMode::DEFAULT)) { // 空分支 } ``` - 空分支可能表示 DEFAULT 模式无需特殊处理 - 建议: 添加注释说明 DEFAULT 模式的预期行为 2. SetValue 使用 (`quant_grouped_matmul.h` 第96行): ```cpp groupListGlobalBuffer_.SetValue(GROUP_LIST_INDEX, groupListToken); ``` - `SetValue` 是逐元素操作,性能较低 - 但此场景是 groupList 更新,数据量小 - 注释说明: "flush groupList到GM确保Cube引擎读到最新数据" - 符合特定场景需求 --- ## 总结与风险评估 ### 总体评估 \| 维度 \| 评分 \| 说明 \| \|------\|------\|------\| \| 安全编码规范 \| PASS \| 所有条款通过,无高风险问题 \| \| API使用正确性 \| PASS \| SyncAll参数正确,HCCL模式正确 \| \| 性能优化 \| PASS \| 核间同步改进,指针判空改进 \| \| 精度标准 \| PASS \| 量化逻辑正确,变量初始化改进 \| \| Tiling设计 \| PASS \| 参数类型正确,结构重构合理 \| \| 代码规范 \| PASS \| 变量声明改进,符合规范 \| ### 风险等级无高风险问题 - 代码质量良好,符合安全编码规范。 ### 主要改进总结本次 PR 的主要改进: 1. 核间同步增强: 新增 `SyncAll<false>()` 确保通算融合场景同步 2. 指针安全: 新增 nullptr 检查避免空指针解引用 3. 变量初始化: scaleB 变量声明移至分支内部避免未初始化 ### 建议 1. 为 DEFAULT 模式空分支添加注释说明预期行为 2. 继续关注 SetValue 在大数据量场景的性能影响 --- ## 附录 ### 检视执行信息 - 检视时间: 2026-05-25 - 检视工具: ascendc-code-review skill - 检视方法论: 假设检验驱动 - 条款覆盖: 12条 (100%覆盖) - 置信度标注: HIGH (所有条款) ### 变更文件清单 \| 文件 \| 侧别 \| 变更类型 \| \|------\|------\|----------\| \| gqmm_cube_on_the_fly.h \| Kernel \| 量化逻辑重构 \| \| allto_allv_grouped_mat_mul.cpp \| Kernel \| 入口重构 \| \| a2av_gmm_utils.h \| Kernel \| 宏定义新增 \| \| hccl_a2av_op.h \| Kernel \| 核间同步新增 \| \| quant_grouped_matmul.h \| Kernel \| nullptr检查新增 \| \| a2av_gmm_scheduler.h \| Kernel \| workspace计算改进 \| \| allto_allv_grouped_mat_mul_tiling.cpp \| Tiling \| 大量重构 \| \| allto_allv_grouped_mat_mul_tiling.h \| Tiling \| 头文件重构 \| \| allto_allv_grouped_mat_mul_tiling_base.h \| Tiling \| 基类重构 \| \| arch22/..._tiling_a3.cpp \| Tiling \| 架构适配 \| \| arch35/..._tiling_a5.cpp \| Tiling \| 架构适配 \| --- 报告生成完成 See merge request: cann/ops-transformer!5243	5 天前
allto_allv_grouped_mat_mul_def.cpp	新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 Co-authored-by: libohao6<libohao3@huawei.com> Co-authored-by: huangshuai<huangshuai59@huawei.com> # message auto-generated for no-merge-commit merge: !2548 merge alltoallv_v2 into master 新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 Created-by: libohao6 Commit-by: huangshuai;libohao6 Merged-by: cann-robot Description: ## 描述新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试二级冒烟 ## 文档更新更新了AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv的aclnn文档。 ## 类型标签 <!-- [x] 表示选中 --> - [X] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!2548	2 个月前
allto_allv_grouped_mat_mul_infershape.cpp	新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 Co-authored-by: libohao6<libohao3@huawei.com> Co-authored-by: huangshuai<huangshuai59@huawei.com> # message auto-generated for no-merge-commit merge: !2548 merge alltoallv_v2 into master 新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 Created-by: libohao6 Commit-by: huangshuai;libohao6 Merged-by: cann-robot Description: ## 描述新增AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv算子 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试二级冒烟 ## 文档更新更新了AlltoAllvQuantGroupedMatmul、QuantGroupedMatmulAlltoAllv的aclnn文档。 ## 类型标签 <!-- [x] 表示选中 --> - [X] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!2548	2 个月前