文件最后提交记录最后更新时间
新增sparse9 tilingkey Co-authored-by: zhouhanqi777<zhouhanqi4@huawei.com> Co-authored-by: jia-zhixi<jiazhixi1@huawei.com> # message auto-generated for no-merge-commit merge: !5545 merge add_tilingkey_0519 into master 新增sparse9 tilingkey Created-by: j00958217 Commit-by: zhouhanqi777;jia-zhixi Merged-by: cann-robot Description: ## 描述 sparse9引入性能劣化,通过新增tilingkey以及模板参数隔离方式恢复性能 ## 关联的Issue 关联Issue--> [#2699](https://gitcode.com/cann/ops-transformer/issues/2699) 问题单单号-->DTS2026040923879、DTS2026042431520 ## 测试 二级冒烟 ## 文档更新 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!55456 天前
[FIA][Mxfp8] fix init inter-core sync counter bug Co-authored-by: shen_weiling<shenweiling@huawei.com> # message auto-generated for no-merge-commit merge: !6117 merge master into master [FIA][Mxfp8] fix init inter-core sync counter bug Created-by: shen_weiling Commit-by: shen_weiling Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> mxfp8 修复核间同步flagid 未初始化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2333 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> RDV已过 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!61174 天前
add FIA Co-authored-by: inspirations<wangke201@huawei.com> # message auto-generated for no-merge-commit merge: !5252 merge master into master add FIA Created-by: inspirations Commit-by: inspirations Merged-by: cann-robot Description: ## 描述 新增arch38的FIA接口支持,完成接口适配 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!525214 天前
refactor(flash_attn): reorganize pytests structure and consolidate mask mode to 0/3/4 Co-authored-by: haijie_699874<zhanghaijie4@hisilicon.com> # message auto-generated for no-merge-commit merge: !5877 merge master into master refactor(flash_attn): reorganize pytests structure and consolidate mask mode to 0/3/4 Created-by: haijie_699874 Commit-by: haijie_699874 Merged-by: cann-robot Description: ## 描述 重构 flash_attn pytests 目录结构,将工具模块按职责拆分到 test_utils/ 和 tools/ 子目录;统一 mask_mode 语义为 0/3/4,移除 keep_prob 参数。 ## 改动 - 修复负载均衡算子在sparse mode3场景的精度bug - 新增 推理场景的性能红线用例 - 新增 test_utils/data.py:mask 生成、QKV 数据构造、block_table、layout 转换逻辑 - 新增 test_utils/io.py:tensor 读写工具 - 移动 precision_visual.py → test_utils/precision_visual.py(仅路径变更) - 移动 xlsx_to_testcase.py → tools/xlsx_to_testcase.py,并重命名 pre_tokens/next_tokens → win_left/win_right,移除 keep_prob - 重构 precision_compare.py → test_utils/precision_compare.py,新增 check_result() 和 analyze_fail_distribution() 精度分析函数 - 精简 mask_mode,仅保留 0/3/4,对齐现有实现 ## 关联的Issue #2653 ## 测试 - 重构仅涉及目录组织和参数重命名,不改变原有测试逻辑 - 不传新参数时原有行为不变 ## 类型标签 - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!58775 天前
mxfp8 pd合一模板适配lse Co-authored-by: lijiaroad<lijialu16@huawei.com> # message auto-generated for no-merge-commit merge: !5917 merge master into master mxfp8 pd合一模板适配lse Created-by: lijiaroad Commit-by: lijiaroad Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> mxfp8 pd合一模板适配lse ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!59177 天前
generalize PFA IFA arch38 Co-authored-by: inspirations<wangke201@huawei.com> # message auto-generated for no-merge-commit merge: !5125 merge master into master generalize PFA IFA arch38 Created-by: inspirations Commit-by: inspirations Merged-by: cann-robot Description: ## 描述 新增IFA和PFA在的泛化场景支持 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!512521 天前
FA fp8 support 512tiling Co-authored-by: huanyongben<huanyongben1@hisilicon.com> # message auto-generated for no-merge-commit merge: !1913 merge master into master FA fp8 support 512tiling Created-by: huanyongben Commit-by: huanyongben Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> FlashAttentionScore算子适配HIFP8 quant场景,基本块修改为128,512,softmax使用fp16+Nz计算 算子原型新增p_scale输入: ` this->Input("p_scale") .ParamType(OPTIONAL) .DataType({ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT, ge::DT_FLOAT}) .Format({ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND}) .UnknownShapeFormat({ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND, ge::FORMAT_ND})` 新增aclnnQuantFlashAttentionScore接口: `aclnnStatus aclnnQuantFlashAttentionScoreGetWorkspaceSize( const aclTensor *query, const aclTensor *key, const aclTensor *value, const aclTensor *dScaleQ, const aclTensor *dScaleK, const aclTensor *dScaleV, const aclTensor *attenMaskOptional, const aclTensor *pScale, double scaleValue, int64_t preTokens, int64_t nextTokens, int64_t headNum, char *inputLayout, int64_t sparseMode, aclTensor *softmaxMaxOut, aclTensor *softmaxSumOut, aclTensor *softmaxOutOut, aclTensor *attentionOutOut, uint64_t *workspaceSize, aclOpExecutor **executor)` ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 本地验证 + 二级冒烟 门槛用例: ``'testcase_name': 'base06', 'B': 1, 'N1': 5, 'N2': 5, 'S1': 57600, 'S2': 57600, 'seqlens_list_q': None, 'seqlens_list_kv': None, 'D': 128, 'DV': 128, 'DR': 0, 'dtype': 'fp8_hif8', 'out_dtype': 1, 'sparse_mode': 0, 'prefix': None, 'input_layout': 'BSND', 'atten_mask_shape': 'None', 'atten_mask_dtype': 'None', 'padding_mask': 'None', 'pse_layout': 'NONE', 'pse_mode': 1, 'pse_type': '', 'pre_tokens': 65536, 'next_tokens': 65536, 'keep_prob': 1.0, 'q_start_idx': 0, 'kv_start_idx': 0, 'seed': 0, 'offset': 0, 测试结果: ![image.png](https://raw.gitcode.com/user-images/assets/7673863/78d8aecb-a85c-4044-bb42-f09f7d416e45/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> aclnnQuantFlashAttentionScore.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!19133 个月前
训推归一-flash_attn_metadata Co-authored-by: guigui_jzh<jinzhonghao@huawei.com> # message auto-generated for no-merge-commit merge: !5185 merge master into master 训推归一-flash_attn_metadata Created-by: guigui_jzh Commit-by: guigui_jzh Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 需求:适配新增新接口算子flash_attn的metadata算子,该算子支持flash_attn的负载均衡计算,用于aclgraph的下沉 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!518518 天前
arch35gentask stub for compiling master with c25 toolkit Co-authored-by: ChenYiran<chenyiran6@huawei.com> # message auto-generated for no-merge-commit merge: !1711 merge c25_c into master arch35gentask stub for compiling master with c25 toolkit Created-by: ChenYiran Commit-by: ChenYiran Merged-by: cann-robot Description: ## 描述 增加arch35gentask的打桩文件以满足使用c25 toolkit包对主线进行编译 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> [#804](https://gitcode.com/cann/ops-transformer/issues/804) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!17113 个月前
arch35gentask stub for compiling master with c25 toolkit Co-authored-by: ChenYiran<chenyiran6@huawei.com> # message auto-generated for no-merge-commit merge: !1711 merge c25_c into master arch35gentask stub for compiling master with c25 toolkit Created-by: ChenYiran Commit-by: ChenYiran Merged-by: cann-robot Description: ## 描述 增加arch35gentask的打桩文件以满足使用c25 toolkit包对主线进行编译 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> [#804](https://gitcode.com/cann/ops-transformer/issues/804) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!17113 个月前
fix sfa crosscore sync id Co-authored-by: wangzhe123456789<wangzhe92@huawei.com> # message auto-generated for no-merge-commit merge: !5519 merge master into master fix sfa crosscore sync id Created-by: wangzhe123456789 Commit-by: wangzhe123456789 Merged-by: cann-robot Description: ## 描述 fix buffer.h gm branch ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!551912 天前
fused_infer_attention_score 同步代码 Co-authored-by: l30066185<leiqingji@h-partners.com> # message auto-generated for no-merge-commit merge: !3958 merge v1 into master fused_infer_attention_score 同步代码 Created-by: leiqingji Commit-by: l30066185 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 同步分支上arch38代码 1、为CV不分离架构芯片添加buffer_mix_core.h 2、修复isPostQuantPerChnl变量未有效赋值问题 3、删除冗余代码 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1801 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!39581 个月前
fused_infer_attention_score 同步代码 Co-authored-by: l30066185<leiqingji@h-partners.com> # message auto-generated for no-merge-commit merge: !3958 merge v1 into master fused_infer_attention_score 同步代码 Created-by: leiqingji Commit-by: l30066185 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 同步分支上arch38代码 1、为CV不分离架构芯片添加buffer_mix_core.h 2、修复isPostQuantPerChnl变量未有效赋值问题 3、删除冗余代码 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1801 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!39581 个月前
fused_infer_attention_score 同步代码 Co-authored-by: l30066185<leiqingji@h-partners.com> # message auto-generated for no-merge-commit merge: !3958 merge v1 into master fused_infer_attention_score 同步代码 Created-by: leiqingji Commit-by: l30066185 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 同步分支上arch38代码 1、为CV不分离架构芯片添加buffer_mix_core.h 2、修复isPostQuantPerChnl变量未有效赋值问题 3、删除冗余代码 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1801 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!39581 个月前
删除memcopy中的mask copy Co-authored-by: PerrySkywalerk<wangmingkang1@huawei.com> # message auto-generated for no-merge-commit merge: !3818 merge mem_copy into master 删除memcopy中的mask copy Created-by: PerrySkywalker Commit-by: PerrySkywalerk Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 删除memcopy中的mask copy ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> [#1838](https://gitcode.com/cann/ops-transformer/issues/1838) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!38181 个月前
S1外切性能优化 Co-authored-by: zzy__<zhaozhiyong15@hisilicon.com> # message auto-generated for no-merge-commit merge: !5389 merge S1OutUpdate into master S1外切性能优化 Created-by: zzy__ Commit-by: zzy__ Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> S1外切性能优化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!53896 天前
arch35 fia gqa noquant enable new template Co-authored-by: comic97<gaokeming@hisilicon.com> # message auto-generated for no-merge-commit merge: !5156 merge local_dev into master arch35 fia gqa noquant enable new template Created-by: comic97 Commit-by: comic97 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!515620 天前
mx fp8 decode S1 泛化 Co-authored-by: zhangxin0615<zhangxin709@huawei.com> # message auto-generated for no-merge-commit merge: !5236 merge master into master mx fp8 decode S1 泛化 Created-by: zhangxin0615 Commit-by: zhangxin0615 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> mxfp8 decode S1 泛化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> 关联Issue [#2333](https://gitcode.com/cann/ops-transformer/issues/2333) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> rdv 已通过 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!523620 天前
训推归一_flash_attn_后续修改 Co-authored-by: Yuanfeng_HW<yuanfeng24@huawei.com> # message auto-generated for no-merge-commit merge: !5384 merge push_flash_attn into master 训推归一_flash_attn_后续修改 Created-by: Yuanfeng_HW Commit-by: Yuanfeng_HW Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 需求:新增新接口算子flash_attn,该算子支持非量化场景下FA训练正向与推理功能 具体支持功能: 1、基础端到端功能,tiling + kernel + interface (继承 + 新开发) 1.1 基础layout layout_q: BSND dtype_q BF16/FP16 layout_kv: BSND dtype_kv BF16/FP16 layout_out: BSND dtype_out BF16/FP16 1.2 使用aicpu MetaData 输入进行负载均衡调度 1.3 Metadata参数支持不传 1.4 PTA接口放Transformer仓 2、支持 seqused_q, seqused_kv (继承 + int32 适配) 3、 layout 泛化支持(含PageAttention)(继承 + cu_seqlens_q、cu_seqlens_kv shape dtype 适配 ) 4、mask 支持 mode 1 , 3 5、支持行无效 (继承) 6、softmax_scale 支持None输入(新开发) 7、支持softmaxLse 输出,支持全量layout (继承功能) ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2336 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!538417 天前
[FIA][Mxfp8] prefill and decode mix Co-authored-by: shen_weiling<shenweiling@huawei.com> # message auto-generated for no-merge-commit merge: !5409 merge master into master [FIA][Mxfp8] prefill and decode mix Created-by: shen_weiling Commit-by: shen_weiling Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> mxfp8 prefill+decode模板合一 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2333 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> RDV已过 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!540917 天前
combine fa offset calculator Co-authored-by: jiang-lirui<jianglirui1@huawei.com> # message auto-generated for no-merge-commit merge: !1974 merge fa_common_950_0225 into master combine fa offset calculator Created-by: jiang-lirui Commit-by: jiang-lirui Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!19743 个月前
opensource, FIA/PFA/IFA/MLAPROLOG A5 synchronization Co-authored-by: j60100428<jingsong5@h-partners.com> # message auto-generated for no-merge-commit merge: !836 merge master into master opensource, FIA/PFA/IFA/MLAPROLOG A5 synchronization Created-by: SH_jingsong Commit-by: SH_jingsong;j60100428 Merged-by: cann-robot Description: ## 描述 opensource, FIA/PFA/IFA/MLAPROLOG A5 synchronization ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/501 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!8364 个月前
新增sparse9 tilingkey Co-authored-by: zhouhanqi777<zhouhanqi4@huawei.com> Co-authored-by: jia-zhixi<jiazhixi1@huawei.com> # message auto-generated for no-merge-commit merge: !5545 merge add_tilingkey_0519 into master 新增sparse9 tilingkey Created-by: j00958217 Commit-by: zhouhanqi777;jia-zhixi Merged-by: cann-robot Description: ## 描述 sparse9引入性能劣化,通过新增tilingkey以及模板参数隔离方式恢复性能 ## 关联的Issue 关联Issue--> [#2699](https://gitcode.com/cann/ops-transformer/issues/2699) 问题单单号-->DTS2026040923879、DTS2026042431520 ## 测试 二级冒烟 ## 文档更新 ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!55456 天前