| GMM mxA8W4性能优化-scale通过vec实现dn2nz
Co-authored-by: shirui17@huawei.com<shirui17@huawei.com>
# message auto-generated for no-merge-commit merge:
!5741 merge GMM_A16W4 into master
GMM mxA8W4性能优化-scale通过vec实现dn2nz
Created-by: shi-rui
Commit-by: shirui17@huawei.com
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
优化 grouped_matmul MxA8W4 场景的 weight quant basic block 处理逻辑。
主要变更:
- 调整 MxA8W4 场景下 kaL1 的计算公式,根据 mL1/nL1/kbL1 和 A 矩阵 L1 预留空间动态计算 kaL1Size,提升 A 矩阵 L1 载入效率。
- 调整 cube 侧 L1 内存分配,重新划分 Weight/Bias/Scale/A 的 L1 buffer 空间,并将 A L1 预留空间调整为 80KB。
- 优化 MxA8W4 scale 处理流程,使用vec处理Dn2nz的过程。 新增并整理 MxA8W4 scale transId 常量定义。
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000-->
<!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。-->
https://gitcode.com/cann/ops-transformer/issues/2765
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。-->
冒烟测试,200+case泛化验证
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
NA
## 类型标签
<!-- [x] 表示选中 -->
- [ ] 🐛 Bug 修复
- [ ] ✨ 新特性
- [x] ⚡ 性能优化
- [ ] ♻️ 重构
- [ ] 🧪 测试
- [ ] 📦 构建/CI
- [ ] 🔧 配置变更
- [ ] 📝 文档更新
- [ ] ⬆️ 依赖升级
- [ ] 🔒 安全修复
- [ ] 🧹 代码清理
- [ ] ❓ 其他,请描述:
See merge request: cann/ops-transformer!5741 | 4 天前 |