op-plugin/op_plugin/python · Ascend/op-plugin - AtomGit

ascend-robottorchair grouped_dynamic_block_quant support dst_type_max

文件	最后提交记录	最后更新时间
atb	[feat]flashattention支持masktype Co-authored-by: 陈立<2825128415@qq.com> # message auto-generated for no-merge-commit merge: !5028 merge masktype into master [feat]flashattention支持masktype Created-by: gcw_zvndY5nI Commit-by: 陈立 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> https://gitcode.com/Ascend/pytorch/issues/2172 - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）新增op_plugin/ops/atb/SelfAttentionAtbV3.cpp并将接口注册到torch_npu # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 仅内部使用，不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 仅内部使用，不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ![image.png](https://raw.gitcode.com/user-images/assets/7403085/7f22df16-4a14-46b2-bc95-556dee2a5dbe/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!5028	14 天前
meta	torchair grouped_dynamic_block_quant support dst_type_max Co-authored-by: ASCEND222<dongfei16@h-partners.com> # message auto-generated for no-merge-commit merge: !5199 merge master into master torchair grouped_dynamic_block_quant support dst_type_max Created-by: ASCEND222 Commit-by: ASCEND222 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> https://gitcode.com/Ascend/op-plugin/issues/172 - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】新增支持HIF8场景的dst_max_type参数，在计算scale时使用该参数 # 【资料变更】新增支持HIF8场景的dst_max_type参数，可选参数，表示目标量化类型为hifloat8时的最大正数值，取值范围[0.0, 32768.0]。默认值为0.0，表示使用hifloat8类型的默认最大正数值。 # 【接口变更】 npu_grouped_dynamic_block_quant(Tensor x, Tensor group_list, *, float min_scale=0.0, str round_mode="rint", int dst_type=291, int row_block_size=1, int col_block_size=128, int group_list_type=0, float dst_type_max=0.0) -> (Tensor, Tensor) # 【功能验证】功能正常，无精度问题 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!5199	5 天前
__init__.py	support npu_fusion_attention_v3 with fake register Co-authored-by: wangchao430<wangchao430@huawei.com> # message auto-generated for no-merge-commit merge: !4123 merge master_fav3cpu into master support npu_fusion_attention_v3 with fake register Created-by: wangchao430 Commit-by: wangchao430 Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? > Uncomment only one `/kind <>` line, hit enter to put that in a new line, and remove leading whitespaces from that line: > > /kind feature What does this PR do / why do we need it: 新增npu_fusion_attention_v3算子，支持入图和aclgraph（不带update）。与npu_fusion_attention变更点主要包含： 1. npu_fusion_attention_v3适配层入口处，prefix参数转为symint数组，actual_seq_qlen、actual_seq_kvlen参数转为cpu Tensor（内容为一维int数组），其中actual_seq_qlen、actual_seq_kvlen尽可能避免发生内存拷贝。 2. 返回值中的seed和offset改为tensor，numel删除（在反向中可以通过重计算得到）。在aclgraph场景下，seed和offset为npu Tensor，直接用于dropout计算，否则为cpu Tensor。由于算子get_max_workspace能力暂未支持，update逻辑暂未适配，aclgraph仅支持不需要actual_seq_qlen、actual_seq_kvlen的BNSD布局。 Special notes for your reviewers: See merge request: Ascend/op-plugin!4123	4 个月前