ops-transformer_8242/gmm/grouped_matmul/op_host/op_tiling/arch35 · zhuzemao/ops-transformer_8242 - AtomGit

cann-robotGMM mxA8W4性能优化-scale通过vec实现dn2nz

文件	最后提交记录	最后更新时间
grouped_no_quant_matmul_tiling.cpp	四月sc清理 Co-authored-by: huangkejie1647<huangkejie3@huawei.com> # message auto-generated for no-merge-commit merge: !3962 merge fix_trunk_transformer into master 四月sc清理 Created-by: huangkejie1647 Commit-by: huangkejie1647 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 四月sc清理本次PR对分组矩阵乘法（Grouped Matmul）操作中与量化相关的参数检查逻辑进行了重构和优化。主要解决了原代码中存在的魔术数字（Magic Number）问题，提升了代码的可读性和可维护性，并统一了伪量化场景下反量化缩放因子（antiquantScale）的维度检查逻辑。在 gmm/grouped_matmul/op_api/aclnn_grouped_matmul.cpp 文件中，通过引入三个具名常量（ANTIQUANT_SCALE_3D_DIMS、ANTIQUANT_SCALE_4D_DIMS、SCALE_TENSOR_EXPECTED_DIMS）来分别表示不同场景下缩放因子的预期维度。随后，在 CheckScaleForInt8Quant 和 SetTransposedScaleTensorListContiguous 函数中将原有的硬编码数字替换为这些常量，使代码意图更清晰，便于未来统一维护。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> Issue [#1820](https://gitcode.com/cann/ops-transformer/issues/1820) <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 本地编译验证 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [x] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3962	1 个月前
grouped_no_quant_matmul_tiling.h	四月sc清理 Co-authored-by: huangkejie1647<huangkejie3@huawei.com> # message auto-generated for no-merge-commit merge: !3962 merge fix_trunk_transformer into master 四月sc清理 Created-by: huangkejie1647 Commit-by: huangkejie1647 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 四月sc清理本次PR对分组矩阵乘法（Grouped Matmul）操作中与量化相关的参数检查逻辑进行了重构和优化。主要解决了原代码中存在的魔术数字（Magic Number）问题，提升了代码的可读性和可维护性，并统一了伪量化场景下反量化缩放因子（antiquantScale）的维度检查逻辑。在 gmm/grouped_matmul/op_api/aclnn_grouped_matmul.cpp 文件中，通过引入三个具名常量（ANTIQUANT_SCALE_3D_DIMS、ANTIQUANT_SCALE_4D_DIMS、SCALE_TENSOR_EXPECTED_DIMS）来分别表示不同场景下缩放因子的预期维度。随后，在 CheckScaleForInt8Quant 和 SetTransposedScaleTensorListContiguous 函数中将原有的硬编码数字替换为这些常量，使代码意图更清晰，便于未来统一维护。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> Issue [#1820](https://gitcode.com/cann/ops-transformer/issues/1820) <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 本地编译验证 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [x] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3962	1 个月前
grouped_quant_basic_api_matmul_tiling.cpp	GMM mxfp4场景切换低阶api + 支持weightNZ Co-authored-by: kknan<xukenan@huawei.com> # message auto-generated for no-merge-commit merge: !4516 merge gmm_support_mxfp4_weightNZ into master GMM mxfp4场景切换低阶api + 支持weightNZ Created-by: kknan Commit-by: kknan Merged-by: cann-robot Description: ## 描述 gmm算子mxfp4场景切换低阶api + 使能weightNZ特性 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2140 ## 测试 ttk/aclnn/torch单算子图模式验证200条门槛用例 + 2k泛化用例 + RDV冒烟测试通过，性能符合预期。 ## 文档更新修改aclnnGroupedMatmulWeightNZ.md文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!4516	1 个月前
grouped_quant_basic_api_matmul_tiling.h	【QuantGroupedMatmulInplaceAdd】支持输入为hifloat8的pertensor-pertensor 量化 Co-authored-by: fengxingpan1<fengxingpan@h-partners.com> # message auto-generated for no-merge-commit merge: !4153 merge qgmmia into master 【QuantGroupedMatmulInplaceAdd】支持输入为hifloat8的pertensor-pertensor 量化 Created-by: fengxingpan1 Commit-by: fengxingpan1 Merged-by: cann-robot Description: ## 描述 QuantGroupedMatmulInplaceAdd算子增加hif8输入T-T量化场景支持自定义数据类型训练，增加了使用低阶API实现的纯cube模板 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2040 ## 测试测试用例精度通过，融合算子性能相比两个单算子性能之和得到优化 ## 文档更新 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!4153	1 个月前
grouped_quant_matmul_info_factory.h	add gmm quant opinfo factory to avoid repeated parsing of op info Co-authored-by: wuyi_huawei<wuyi36@hisilicon.com> # message auto-generated for no-merge-commit merge: !2192 merge tiling into master add gmm quant opinfo factory to avoid repeated parsing of op info Created-by: wuyi_huawei Commit-by: wuyi_huawei Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 在gmm全量化（A8W8.A4W4）场景下，增加info factory，避免对TilingContext的重复解析和校验，为后续增加新tiling类做前期工作。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000-->https://gitcode.com/cann/ops-transformer/issues/1015 <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 二级冒烟+算子泛化500个用例，功能/精度pass，host tiling不增加。 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!2192	2 个月前
grouped_quant_matmul_tiling.cpp	GMM全量化算子mx scale的shape带1时不再校验 Co-authored-by: liyinghao10<liyinghao10@h-partners.com> # message auto-generated for no-merge-commit merge: !5114 merge shapeone into master GMM全量化算子mx scale的shape带1时不再校验 Created-by: liyinghao10 Commit-by: liyinghao10 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 在GMM算子图模式下，mx量化中如果scale的shape带1，图融合组件会将Transpose节点替换为Reshape节点，导致图融合规则无法识别并消除该节点并设置正确的转置属性。在Tiling校验中，拦截校验会误判为转置不一致从而阻塞此类用例通过。因此，当scale的shape带1的时候，不再判断转置，自动通过。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#2357](https://gitcode.com/cann/ops-transformer/issues/2357) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 冒烟通过，测试相应scale带1的shape用例通过 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5114	21 天前
grouped_quant_matmul_tiling.h	common目录整改 Co-authored-by: hello_simida<wangyi206@huawei.com> # message auto-generated for no-merge-commit merge: !4870 merge feature/common_dir_fix_v2 into master common目录整改 Created-by: hello_simida Commit-by: hello_simida Merged-by: cann-robot Description: ## 描述本次修改对 common/ 目录进行整理，分为两个阶段： - Phase 1: 将 `common/include/kernel/` 重命名为 `common/include/op_kernel/` - Phase 2: 将 `common/include/tiling_base/` 和 `common/src/tiling_base/` 合并到 `common/include/op_host/` 和 `common/src/op_host/` 相应的 CMake 配置和所有 `#include` 路径引用已同步更新。影响范围： - 351 个文件修改（include 路径更新） - 8 个文件重命名（tiling_base → op_host） - 2 个 CMakeLists.txt 修改 + 多个 tests 目录 CMakeLists.txt 更新 ## 关联的Issue Closes #2246 ## 测试 - 编译验证通过：`bash build.sh --pkg --soc=ascend910b --ops=all_gather_matmul_v2 -j16` - 编译产物成功生成 `.run` 包 ## 文档更新无 ## 类型标签 - [x] ♻️ 重构 - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!4870	26 天前
grouped_weight_quant_batch_matmul_tiling.cpp	GMM mxA8W4性能优化-scale通过vec实现dn2nz Co-authored-by: shirui17@huawei.com<shirui17@huawei.com> # message auto-generated for no-merge-commit merge: !5741 merge GMM_A16W4 into master GMM mxA8W4性能优化-scale通过vec实现dn2nz Created-by: shi-rui Commit-by: shirui17@huawei.com Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 优化 grouped_matmul MxA8W4 场景的 weight quant basic block 处理逻辑。主要变更： - 调整 MxA8W4 场景下 `kaL1` 的计算公式，根据 `mL1/nL1/kbL1` 和 A 矩阵 L1 预留空间动态计算 `kaL1Size`，提升 A 矩阵 L1 载入效率。 - 调整 cube 侧 L1 内存分配，重新划分 Weight/Bias/Scale/A 的 L1 buffer 空间，并将 A L1 预留空间调整为 80KB。 - 优化 MxA8W4 scale 处理流程，使用vec处理Dn2nz的过程。新增并整理 MxA8W4 scale transId 常量定义。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2765 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 冒烟测试，200+case泛化验证 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> NA ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5741	4 天前
grouped_weight_quant_batch_matmul_tiling.h	修改GMM伪量化场景对int64属性的错误取值 Co-authored-by: shirui17@huawei.com<shirui17@huawei.com> # message auto-generated for no-merge-commit merge: !3143 merge GMM_A16W4 into master 修改GMM伪量化场景对int64属性的错误取值 Created-by: shi-rui Commit-by: shirui17@huawei.com Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> GMM定义属性使用int64指针接收，防止整数溢出风险 1. const int64_t groupTypePtr = attr->GetAttrPointer<int64_t>(ATTR_GROUPTYPE_IDX); 2. const int64_t groupListTypePtr = attr->GetAttrPointer<int64_t>(ATTR_GROUP_LIST_TYPE_IDX); 针对groupType，使用枚举类型定义具体业务属性，保持原有校验逻辑不变 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1556 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 验证200+泛化case ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> NA ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3143	2 个月前