| [feature][ops]: add mxfp4 quant flash attention softmax variants Co-authored-by: lijinxi<lijinxi2@huawei.com> # message auto-generated for no-merge-commit merge: !347 merge dev into dev [feature][ops]: add mxfp4 quant flash attention softmax variants Created-by: weixin_44144262 Commit-by: lijinxi Merged-by: ascend-robot Description: # Which issue(s) this PR fixes or accomplishes [#136](https://gitcode.com/Ascend/MindIE-SD/issues/136) # Purpose 本 PR 更新 MXFP4 量化 Flash Attention 算子实现。 主要变更: - 更新 quant flash attention block cube/vector kernel 逻辑。 - 调整 kernel 公共定义和 VF helper 文件。 - 新增 MXFP4 softmax VF 变体,支持 qs128/kvs32 和 qs128/kvs256 布局。 - 更新 quant flash attention metadata AICPU 侧处理,适配新的算子路径。 本 PR 仅包含算子 C++/kernel 代码变更,不包含 Python 运行时代码和 UT 变更。 # Test Plan - 编译 quant flash attention 自定义算子。 - 执行 quant flash attention 算子 UT,覆盖 MXFP4 路径。 - 验证 qs128/kvs32、qs128/kvs256 布局下的 MXFP4 attention case。 # Test Report - GitCode 远端 hook 检查:每次提交均 PASSED。 - 执行本地编译和 UT。  See merge request: Ascend/MindIE-SD!347 | 13 天前 |