文件最后提交记录最后更新时间
删除 flash_attn deterministic 参数 Co-authored-by: haijie_699874<zhanghaijie4@hisilicon.com> # message auto-generated for no-merge-commit merge: !5436 merge master into master 删除 flash_attn deterministic 参数 Created-by: haijie_699874 Commit-by: haijie_699874 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 删除 flash_attn deterministic 参数 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> 见issue关联 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了torch_extension/npu_ops_transformer/doc/npu_flash_attn.md ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!543611 天前
删除 flash_attn deterministic 参数 Co-authored-by: haijie_699874<zhanghaijie4@hisilicon.com> # message auto-generated for no-merge-commit merge: !5436 merge master into master 删除 flash_attn deterministic 参数 Created-by: haijie_699874 Commit-by: haijie_699874 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 删除 flash_attn deterministic 参数 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> 见issue关联 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了torch_extension/npu_ops_transformer/doc/npu_flash_attn.md ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!543611 天前
训推归一-flash_attn Co-authored-by: Yuanfeng_HW<yuanfeng24@huawei.com> # message auto-generated for no-merge-commit merge: !5014 merge 5/7-se into master 训推归一-flash_attn Created-by: Yuanfeng_HW Commit-by: Yuanfeng_HW Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 需求:新增新接口算子flash_attn,该算子支持非量化场景下FA训练正向与推理功能 具体支持功能: 1、基础端到端功能,tiling + kernel + interface (继承 + 新开发) 1.1 基础layout layout_q: BSND dtype_q BF16/FP16 layout_kv: BSND dtype_kv BF16/FP16 layout_out: BSND dtype_out BF16/FP16 1.2 使用aicpu MetaData 输入进行负载均衡调度 1.3 Metadata参数支持不传 1.4 PTA接口放Transformer仓 2、支持 seqused_q, seqused_kv (继承 + int32 适配) 3、 layout 泛化支持(含PageAttention)(继承 + cu_seqlens_q、cu_seqlens_kv shape dtype 适配 ) 4、mask 支持 mode 1 , 3 5、支持行无效 (继承) 6、softmax_scale 支持None输入(新开发) 7、支持softmaxLse 输出,支持全量layout (继承功能) ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2336 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!501421 天前
refactor: remove dead S1 outer split code in flash_attn arch35 tiling and add UT Co-authored-by: PerrySkywalerk<wangmingkang1@huawei.com> # message auto-generated for no-merge-commit merge: !5947 merge fix_fa_ut into master refactor: remove dead S1 outer split code in flash_attn arch35 tiling and add UT Created-by: PerrySkywalker Commit-by: PerrySkywalerk Merged-by: cann-robot Description: ## 描述 清理 flash_attn arch35 tiling 中未使用的 S1 外切分代码,新增 arch35 tiling UT 用例提升测试覆盖率。 ## 改动 - 移除 flash_attn_tiling.cpp/.h 中未使用的 GetWinLeftsRightUp、FixParamWithRowInvalid、CheckS1OutSplit、SplitOutSeq 方法 - 移除未使用的成员变量 enableS1OutSplit - 简化 SplitPolicy,移除死代码 S1 outer split 分支 - 新增 arch35 tiling UT 用例(PA_BBND 正常场景、dtype 不一致、headnum 非法、layout 非法、format 非法等 13 条) - 在 test_config.yaml 中启用 flash_attn UT ## 关联的Issue #2693 ## 测试 - UT 新增用例覆盖 arch35 tiling 校验路径 ## 类型标签 - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [x] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!59475 天前
flash_attn性能提升:位掩码代替取模运算 Co-authored-by: Yuanfeng_HW<yuanfeng24@huawei.com> # message auto-generated for no-merge-commit merge: !6065 merge best into master flash_attn性能提升:位掩码代替取模运算 Created-by: Yuanfeng_HW Commit-by: Yuanfeng_HW Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 在代码中使用位掩码代替取模运算,降低scaler bound对pipline的阻塞,提升flash_attn性能 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!60654 天前
flash_attn pytest 修复三方对比非error情况批跑结果显示错误 Co-authored-by: chenyiran<chenyiran6@huawei.com> # message auto-generated for no-merge-commit merge: !6119 merge flash_attn into master flash_attn pytest 修复三方对比非error情况批跑结果显示错误 Created-by: ChenYiran Commit-by: chenyiran Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!61194 天前
训推归一_flash_attn_后续修改 Co-authored-by: Yuanfeng_HW<yuanfeng24@huawei.com> # message auto-generated for no-merge-commit merge: !5384 merge push_flash_attn into master 训推归一_flash_attn_后续修改 Created-by: Yuanfeng_HW Commit-by: Yuanfeng_HW Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 需求:新增新接口算子flash_attn,该算子支持非量化场景下FA训练正向与推理功能 具体支持功能: 1、基础端到端功能,tiling + kernel + interface (继承 + 新开发) 1.1 基础layout layout_q: BSND dtype_q BF16/FP16 layout_kv: BSND dtype_kv BF16/FP16 layout_out: BSND dtype_out BF16/FP16 1.2 使用aicpu MetaData 输入进行负载均衡调度 1.3 Metadata参数支持不传 1.4 PTA接口放Transformer仓 2、支持 seqused_q, seqused_kv (继承 + int32 适配) 3、 layout 泛化支持(含PageAttention)(继承 + cu_seqlens_q、cu_seqlens_kv shape dtype 适配 ) 4、mask 支持 mode 1 , 3 5、支持行无效 (继承) 6、softmax_scale 支持None输入(新开发) 7、支持softmaxLse 输出,支持全量layout (继承功能) ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2336 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!538417 天前