文件最后提交记录最后更新时间
GMM mxA8W4性能优化-scale通过vec实现dn2nz Co-authored-by: shirui17@huawei.com<shirui17@huawei.com> # message auto-generated for no-merge-commit merge: !5741 merge GMM_A16W4 into master GMM mxA8W4性能优化-scale通过vec实现dn2nz Created-by: shi-rui Commit-by: shirui17@huawei.com Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 优化 grouped_matmul MxA8W4 场景的 weight quant basic block 处理逻辑。 主要变更: - 调整 MxA8W4 场景下 kaL1 的计算公式,根据 mL1/nL1/kbL1 和 A 矩阵 L1 预留空间动态计算 kaL1Size,提升 A 矩阵 L1 载入效率。 - 调整 cube 侧 L1 内存分配,重新划分 Weight/Bias/Scale/A 的 L1 buffer 空间,并将 A L1 预留空间调整为 80KB。 - 优化 MxA8W4 scale 处理流程,使用vec处理Dn2nz的过程。 新增并整理 MxA8W4 scale transId 常量定义。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2765 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 冒烟测试,200+case泛化验证 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> NA ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!57414 天前
refactor(gmm): move fallback sources to op_graph Co-authored-by: smdbha<panzhijie2@huawei.com> # message auto-generated for no-merge-commit merge: !3247 merge master into master refactor(gmm): move fallback sources to op_graph Created-by: smdbha Commit-by: smdbha Merged-by: cann-robot Description: ## 描述 本次改动对部分 GMM 模块的目录结构进行了统一整理,核心目标是将 op_apiop_host 中独立出来,并将图侧 fallback_*.cpp 移动到同级 op_graph 目录。 本次涉及模块如下: - grouped_matmul - grouped_matmul_add - grouped_matmul_finalize_routing - grouped_matmul_swiglu_quant_v2 - quant_grouped_matmul_inplace_add 具体改动包括: 1. 将以下模块中的 op_host/op_api 调整为同级 op_api: - grouped_matmul - grouped_matmul_add - grouped_matmul_finalize_routing - grouped_matmul_swiglu_quant_v2 - quant_grouped_matmul_inplace_add 2. 将以下模块中的 fallback_*.cppop_host 移动到同级 op_graph: - grouped_matmul - grouped_matmul_finalize_routing - grouped_matmul_swiglu_quant_v2 - quant_grouped_matmul_inplace_add 3. 修改对应 op_host/CMakeLists.txt,适配独立后的 op_api 目录: - 增加 OP_API_INDEPENDENT ON - 增加 OP_API_DIR ${CMAKE_CURRENT_SOURCE_DIR}/../op_api 4. 同步修正相关引用关系: - 更新 UT 中受影响的 include 路径 - 更新 classify_rule.yamlgrouped_matmulop_api 路径 - 修正 gmm/grouped_matmul/op_api/aclnn_grouped_matmul.cppgrouped_matmul_host_util.h 的相对 include 路径 - 删除迁移过程中新增的 CMake 说明性注释,保持脚本整洁 本次改动以目录整理和构建适配为主,不涉及算子功能逻辑变更。 ## 关联Issue 关联 Issue:#1421 ## 测试 已完成以下检查: - 检查相关模块目录结构,确认迁移后 op_apiop_graph 布局符合预期 - 检查旧路径残留,确认相关模块中不再保留旧的 op_host/op_api 目录引用 - 检查 fallback_*.cpp 已从 op_host 移动到对应 op_graph - 检查 CMakeLists.txt、UT 路径和 classify_rule.yaml 已同步更新 ## 文档更新 无 ## 类型标签 - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [x] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!32472 个月前
GMM mxfp4场景切换低阶api + 支持weightNZ Co-authored-by: kknan<xukenan@huawei.com> # message auto-generated for no-merge-commit merge: !4516 merge gmm_support_mxfp4_weightNZ into master GMM mxfp4场景切换低阶api + 支持weightNZ Created-by: kknan Commit-by: kknan Merged-by: cann-robot Description: ## 描述 gmm算子mxfp4场景切换低阶api + 使能weightNZ特性 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2140 ## 测试 ttk/aclnn/torch单算子图模式 验证200条门槛用例 + 2k泛化用例 + RDV冒烟测试通过,性能符合预期。 ## 文档更新 修改aclnnGroupedMatmulWeightNZ.md文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!45161 个月前
QGMM支持grouplisttype为2 Co-authored-by: zhangzhizhuo<zhangzhizhuo1@huawei.com> # message auto-generated for no-merge-commit merge: !2243 merge grouplist into master QGMM支持grouplisttype为2 Created-by: zhangzhizhuo Commit-by: zhangzhizhuo;zhang Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> grouplisttype 0 grouplist: [123, 123, 456, 456, 456, 789, 789, 789, 789] :每个元素表示到当前组为止的 M 维度累积大小 grouplisttype 1 grouplist: [123, 0, 333, 0, 0, 333, 0, 0, 0] : 每个元素表示当前组的 M 维度大小 grouplisttype 2 grouplist: [[0, 123], [2, 333], [5, 333], [1, 0], ..., [8, 0]] :稀疏表示,只存储索引和大小,零组会被后置,非零组会被前置 三者是等价的表示。 要求 groupListOptional 为 shape [E, 2] 的二维数组,其中 E 是总组数,每行格式为 [groupIdx, groupSize],表示第 groupIdx 组的大小。 适用于“非激活专家较多”的稀疏场景,非零组会被前置。可以跳过后续零组的计算。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> 关联issue #1449 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 二级冒烟,算子门槛测试,泛化测试 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了 gmm/grouped_matmul/op_host/op_api/aclnn_grouped_matmul_v4.h gmm/grouped_matmul/op_host/op_api/aclnn_grouped_matmul_v5.h gmm/grouped_matmul/op_host/op_api/aclnn_grouped_matmul_weight_nz.h ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!22432 个月前
GMM support groupListType=2 Co-authored-by: lijiamin<lijiamin24@huawei.com> # message auto-generated for no-merge-commit merge: !4844 merge gmm2 into master GMM support groupListType=2 Created-by: lijiamin2025 Commit-by: lijiamin Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 改动原因: 支持groupList的稀疏模式,Gmm算子极致低延时 改动点: 非耦合改动:新增XXXMSparse类处理groupListType=2的场景 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2484 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> A4W4_Sparse ATK A16W4/A16W8_Sparse ATK noquant_Sparse ATK ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 本PR不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!48445 天前
GMM support groupListType=2 Co-authored-by: lijiamin<lijiamin24@huawei.com> # message auto-generated for no-merge-commit merge: !4844 merge gmm2 into master GMM support groupListType=2 Created-by: lijiamin2025 Commit-by: lijiamin Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 改动原因: 支持groupList的稀疏模式,Gmm算子极致低延时 改动点: 非耦合改动:新增XXXMSparse类处理groupListType=2的场景 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2484 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> A4W4_Sparse ATK A16W4/A16W8_Sparse ATK noquant_Sparse ATK ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 本PR不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!48445 天前
GMM算子全量化部分Infershape校验scale非空时添加非INT32输出 Co-authored-by: liyinghao10<liyinghao10@h-partners.com> # message auto-generated for no-merge-commit merge: !3930 merge dts20251225 into master GMM算子全量化部分Infershape校验scale非空时添加非INT32输出 Created-by: liyinghao10 Commit-by: liyinghao10 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 在GMM算子的全量化Infershape校验类里,对校验scale非空的地方添加了非INT32输出的条件 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> [#2359](https://gitcode.com/cann/ops-transformer/issues/2359) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 二级冒烟通过 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!393021 天前
同步GMM代码 Co-authored-by: Hu1L1<chenshujian5@huawei.com> # message auto-generated for no-merge-commit merge: !546 merge move_all into master 同步GMM代码 Created-by: Hu1L1 Commit-by: Hu1L1 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!5465 个月前
GMM 伪量化场景清理存量code check Co-authored-by: shirui17@huawei.com<shirui17@huawei.com> # message auto-generated for no-merge-commit merge: !2843 merge GMM_A16W4 into master GMM 伪量化场景清理存量code check Created-by: shi-rui Commit-by: shirui17@huawei.com Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 1 代码优化:将CheckGroupedMatmulAntiQuantGroupSize函数的context参数类型修正为const指针,并将CheckTensorListSize、CheckEmptyTensor等成员函数标记为const,明确了其只读语义。同时,移除了CheckTensorNDimMultiScenario函数中未使用的冗余参数 2 常量完善:在公共头文件中新增了LAST_DIM、ANTEPENULTIMATE_DIM等常量,并在Tiling逻辑中使用这些常量替换硬编码数字,使维度索引计算意图更清晰。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1328 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 本地泛化100个case无问题 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [x] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!28432 个月前
GMM 伪量化场景清理存量code check Co-authored-by: shirui17@huawei.com<shirui17@huawei.com> # message auto-generated for no-merge-commit merge: !2843 merge GMM_A16W4 into master GMM 伪量化场景清理存量code check Created-by: shi-rui Commit-by: shirui17@huawei.com Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 1 代码优化:将CheckGroupedMatmulAntiQuantGroupSize函数的context参数类型修正为const指针,并将CheckTensorListSize、CheckEmptyTensor等成员函数标记为const,明确了其只读语义。同时,移除了CheckTensorNDimMultiScenario函数中未使用的冗余参数 2 常量完善:在公共头文件中新增了LAST_DIM、ANTEPENULTIMATE_DIM等常量,并在Tiling逻辑中使用这些常量替换硬编码数字,使维度索引计算意图更清晰。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1328 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 本地泛化100个case无问题 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [x] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!28432 个月前