MindIE-SD/csrc/ops/quant_flash_attn/op_kernel · Ascend/MindIE-SD - AtomGit

ascend-robot[feature][ops]: add mxfp4 quant flash attention softmax variants

文件	最后提交记录	最后更新时间
arch35	[feature][ops]: add mxfp4 quant flash attention softmax variants Co-authored-by: lijinxi<lijinxi2@huawei.com> # message auto-generated for no-merge-commit merge: !347 merge dev into dev [feature][ops]: add mxfp4 quant flash attention softmax variants Created-by: weixin_44144262 Commit-by: lijinxi Merged-by: ascend-robot Description: # Which issue(s) this PR fixes or accomplishes [#136](https://gitcode.com/Ascend/MindIE-SD/issues/136) # Purpose 本 PR 更新 MXFP4 量化 Flash Attention 算子实现。主要变更： - 更新 quant flash attention block cube/vector kernel 逻辑。 - 调整 kernel 公共定义和 VF helper 文件。 - 新增 MXFP4 softmax VF 变体，支持 qs128/kvs32 和 qs128/kvs256 布局。 - 更新 quant flash attention metadata AICPU 侧处理，适配新的算子路径。本 PR 仅包含算子 C++/kernel 代码变更，不包含 Python 运行时代码和 UT 变更。 # Test Plan - 编译 quant flash attention 自定义算子。 - 执行 quant flash attention 算子 UT，覆盖 MXFP4 路径。 - 验证 qs128/kvs32、qs128/kvs256 布局下的 MXFP4 attention case。 # Test Report - GitCode 远端 hook 检查：每次提交均 PASSED。 - 执行本地编译和 UT。 ![image.png](https://raw.gitcode.com/user-images/assets/8476587/4b2ea84e-28b9-451c-a952-8c2acfb3385e/image.png 'image.png') See merge request: Ascend/MindIE-SD!347	13 天前
quant_flash_attn.cpp	feat: quant_flash_attn and quant_flash_attn_metadata operators Co-authored-by: lijinxi<lijinxi2@huawei.com> # message auto-generated for no-merge-commit merge: !313 merge dev into dev feat: quant_flash_attn and quant_flash_attn_metadata operators Created-by: weixin_44144262 Commit-by: lijinxi Merged-by: ascend-robot Description: # Which issue(s) this PR fixes or accomplishes > Fix part of #136 # Purpose 新增mxfp4的fa算子，配套的还有一个aicpu的metadata算子 # Test Plan 运行tests/ops/quant_flash_attn/quant_flash_attn_golden.py测试单算子精度 # Test Report ![image.png](https://raw.gitcode.com/user-images/assets/8476587/44ca9d24-0974-421d-b8d2-28203e313626/image.png 'image.png') See merge request: Ascend/MindIE-SD!313	21 天前