| 【BSA】【950】算子任务下发遍历逻辑优化&块间流水重排&vf手动双发射
Co-authored-by: chenyizhou<chenyizhou6@huawei.com>
# message auto-generated for no-merge-commit merge:
!4899 merge bsa_950_opt into master
【BSA】【950】算子任务下发遍历逻辑优化&块间流水重排&vf手动双发射
Created-by: chenyizhou
Commit-by: chenyizhou
Merged-by: cann-robot
Description: ## 描述
- 修改了任务遍历逻辑,将qS的遍历置于最内层
- 修改了QK,PV矩阵乘的流水排布,使得l0a/b pingpong buffer切换逻辑更为适配基块间的prelaunch流水,将两阶段的l0c buffer占用隔离,提高fixpipe与其他流水线并行度
- 修改了vector部分的双发射逻辑
## 关联的Issue
关联Issue #2267
<!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。-->
## 测试
模型典型大shape下,算子性能提升30%-45%
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [ ] 🐛 Bug 修复
- [ ] ✨ 新特性
- [x] ⚡ 性能优化
- [ ] ♻️ 重构
- [ ] 🧪 测试
- [ ] 📦 构建/CI
- [ ] 🔧 配置变更
- [ ] 📝 文档更新
- [ ] ⬆️ 依赖升级
- [ ] 🔒 安全修复
- [ ] 🧹 代码清理
- [ ] ❓ 其他,请描述:
See merge request: cann/ops-transformer!4899 | 22 天前 |