op-plugin/op_plugin · Ascend/op-plugin - AtomGit

ascend-robotfix: grouped matmul swiglu quant v2 mxfp4 shape infer

文件	最后提交记录	最后更新时间
config	[feat]新增swiglu_backward_mx_quant_with_dual_axis接口 Co-authored-by: ZhangW<zhangwei1176@huawei.com> # message auto-generated for no-merge-commit merge: !4927 merge swiglu_backward into master [feat]新增swiglu_backward_mx_quant_with_dual_axis接口 Created-by: ZhangWei1176 Commit-by: ZhangW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求https://gitcode.com/Ascend/op-plugin/issues/128 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）本次PR新增了一个名为 _npu_swiglu_backward_mx_quant_with_dual_axis 的自定义算子。该算子支持在双轴（dual axis）模式下进行混合精度量化，旨在为深度学习模型推理提供更灵活、高效的量化选项，以优化计算性能和内存使用。首先，在YAML配置文件中注册了该算子的接口定义。其次，在C++层实现了算子的核心API，包括输入校验、输出张量形状计算、内存分配，并最终调用底层硬件加速内核执行计算。同时，在JSON配置文件中更新了算子API模式测试的schema。最后，新增了对应的Python单元测试，用于验证算子在特定数据类型（如float8_e4m3fn）的功能正确性。整个方案覆盖了算子生命周期的配置、实现与验证环节。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ut通过截图： ![image.png](https://raw.gitcode.com/user-images/assets/7403085/a8eefc7f-3e4f-487f-92da-5318bd7b9571/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!4927	17 小时前
include	Generate ATB public C++ interface wrappers from dispatcher schema registrations. Co-authored-by: wang_ziqi<wangziqi4@huawei.com> # message auto-generated for no-merge-commit merge: !4825 merge atb-cpp-api-interface into master Generate ATB public C++ interface wrappers from dispatcher schema registrations. Created-by: wang-ziqi-code Commit-by: wang_ziqi Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：2026-04-25 --> # 【合入来源】> <font color="red">如有社区 issue，请关联 issue 链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部 issue 等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 https://gitcode.com/Ascend/op-plugin/issues/69 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】本次补充 ATB C++ 公共接口暴露机制，并同步收敛配置和生成器口径。当前 ATB 算子原本主要通过 `TORCH_LIBRARY_FRAGMENT(atb, m)` / `m.impl(...)` 注册到 dispatcher，再由 Python 侧通过 `torch.ops.atb` 使用；本次在此基础上新增 `at_npu::native::atb` 命名空间下的 C++ public interface，用于 `torch_npu` 同构环境中的 C++ 调用方直接访问。整体链路如下： ```text ::atb::implementation -> TORCH_LIBRARY_FRAGMENT(atb, m).def(...) / m.impl(...) -> torch.ops.atb (Python dispatcher entry) #python层接口 -> atb_ops.yaml + gen_atb_ops.py -> at_npu::native::atb::* (public C++ interface) #cpp层接口 ``` 具体修改如下： 1. 新增并收敛 ATB C++ 接口生成器 `torchnpugen/gen_atb_ops.py` - 以 `::atb::` 实现函数签名作为 public C++ interface 的真值来源； - 以 `m.def(...)` / `m.impl(...)` 作为注册约束校验； - 读取 `op_plugin/config/atb_ops.yaml` 中的 `cpp_name -> impl_name` 映射，生成： - `op_plugin/include/AtbOpsInterface.h` - `op_plugin/ops/atb/AtbOpsInterface.cpp` - 生成器会校验： - 对应 `::atb::` 实现签名可从 `op_plugin/ops/atb/.cpp` 中唯一解析。 2. 新增配置文件 `op_plugin/config/atb_ops.yaml`* - 维护 public C++ interface 与 `::atb::` 实现之间的映射； - 当前共覆盖 34 个 ATB 接口； - 配置写法为： ```yaml - cpp_name: "at_npu::native::atb::_npu_reshape_and_cache" impl_name: "atb::_npu_reshape_and_cache" ``` - 生成器内部会解析并校验 `cpp_name`： - 必须以 `at_npu::native::atb::` 开头； - 必须能提取出合法的末尾函数名； 3. 新增模板文件 `torchnpugen/templates/AtbOpsInterface.h` 和 `AtbOpsInterface.cpp`* - 通过 `string.Template` 渲染 public declaration、forward declaration 和 wrapper definition； - 生成的 wrapper 统一位于 `namespace at_npu::native::atb` 下； - wrapper 最终按参数原样转发到对应 `::atb::` 实现。 4. 新增统一 include 入口 `op_plugin/include/atb_ops.h`* - 作为 C++ 使用方的统一头文件入口； - 当前仅包含 `AtbOpsInterface.h`。 5. 集成到代码生成流程 - 在现有代码生成链路中加入 `gen_atb_ops.py`； - 保证构建过程中自动生成最新接口文件。 ### 生成产物示例以 `_npu_group_topk` 为例，生成结果如下： AtbOpsInterface.h ```cpp namespace at_npu { namespace native { namespace atb { TORCH_NPU_API void _npu_group_topk(const at::Tensor &self, int64_t k, int64_t group_num, int64_t n); } // namespace atb } // namespace native } // namespace at_npu ``` AtbOpsInterface.cpp ```cpp namespace atb { void _npu_group_topk(const at::Tensor &self, int64_t k, int64_t group_num, int64_t n); } // namespace atb namespace at_npu { namespace native { namespace atb { void _npu_group_topk(const at::Tensor &self, int64_t k, int64_t group_num, int64_t n) { ::atb::_npu_group_topk(self, k, group_num, n); } } // namespace atb } // namespace native } // namespace at_npu ``` # 【资料变更】不涉及 # 【接口变更】涉及 C++ public interface 新增。新增 `AtbOpsInterface.h`，在 `at_npu::native::atb` 命名空间下暴露 34 个 ATB public C++ API；接口签名与对应 `::atb::` 实现保持一致。C++ 调用方通过： ```cpp #include "atb_ops.h" ``` 即可访问对应接口，链接目标为 `libop_plugin_atb.so`。 - 在 `torch_npu` 同构运行环境中，`at_npu::native::atb::` 作为额外 C++ ABI 可用； - 接口签名与 `::atb::` 实现保持一致； - public 符号边界位于 `libop_plugin_atb.so`。 # 【功能验证】 1. 生成回归* - 执行 `python -m torchnpugen.gen_atb_ops --config op_plugin/config/atb_ops.yaml --header op_plugin/include/AtbOpsInterface.h --source op_plugin/ops/atb/AtbOpsInterface.cpp --atb-src-dir op_plugin/ops/atb` - 连续执行两次，确认生成结果稳定、无无关 diff。 2. 源码契约检查 - 执行 `python test/check_atb_cpp_api_contract.py --check-source` - 校验： - `cpp_name -> impl_name -> m.impl -> m.def` 映射成立； - wrapper 声明与 `::atb::` 实现签名一致； - wrapper 参数透传顺序一致。 3. 配置校验* - `atb_ops.yaml` 中 `cpp_name` 采用全限定写法； - 非法 `cpp_name`（缺前缀、缺函数名）会在生成器配置解析阶段直接报错。 4. 编译链接验证 - `op-plugin` 全量编译通过； - `at_npu::native::atb::*` public 符号由 `libop_plugin_atb.so` 承载。 # 【CheckList】 > PR 提交人对以下 CheckList 自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR 标题正确使用类型标签，如：feat、fix、refactor、docs、test 等 - [x] PR 持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!4825	15 天前
ops	fix: grouped matmul swiglu quant v2 mxfp4 shape infer Co-authored-by: wang_ziqi<wangziqi4@huawei.com> # message auto-generated for no-merge-commit merge: !5049 merge gmm_bugfix into master fix: grouped matmul swiglu quant v2 mxfp4 shape infer Created-by: wang-ziqi-code Commit-by: wang_ziqi Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [x] 问题单 https://atomgit.com/Ascend/op-plugin/issues/84 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】修复 `npu_grouped_matmul_swiglu_quant_v2` 在 Ascend950 MXFP4 / packed FP4 场景下的 output shape 推导问题。 1. 对齐 CANN infer shape 逻辑，MX 场景下 `weightScale` 为 `[E, ceil(K/64), N, 2]`，逻辑 N 应取 `weightScale.dim2`，不能按转置 view 或 FP4 uint8 物理存储再做额外补偿。 2. `npu_grouped_matmul_swiglu_quant_v2_meta` 中移除旧的 `FP4_IN_INT8` output/outputScale shape 补偿逻辑，统一按 CANN 输出： - `output = [M, N / 2]` - `outputScale = [M, ceil((N / 2) / 64), 2]` 3. `GroupedMatmulSwigluQuantV2NpuOpapi.cpp` 中保留 5D NZ 和 950 逻辑 3D weight 的路径区分： - 5D NZ 场景从 `weightScale` 推导逻辑 N。 - Ascend950 逻辑 3D weight 场景继续从 `weight.size(2)` 推导 N。 4. 新增 fake tensor 和 Ascend950 shape-only 用例，覆盖 MXFP4 input + FP8/FP4 output 的 shape 推导，避免 CPU golden 当前不支持 packed float4 MX 输入的问题影响回归看护。 # 【资料变更】不涉及。 # 【接口变更】不涉及 public API / YAML / schema 变更。 # 【功能验证】新增/调整用例： 1. `test/core_tests/test_fake_tensor.py` - 新增 Ascend950 MXFP4 fake tensor shape 回归，覆盖 FP8 output 和 FP4 output。 - 校验 output/outputScale shape 与 CANN infer shape 一致。 2. `test/test_custom_ops/test_npu_grouped_matmul_swiglu_quant_v2.py` - 新增 Ascend950 MXFP4 shape-only 后端用例。 - 覆盖 `x_dtype/weight_dtype=torch_npu.float4_e2m1fn_x2`，`weight_scale_dtype/x_scale_dtype=torch_npu.float8_e8m0fnu`。 - 校验 output/outputScale shape 和 dtype，不做数值 golden。 - 910B ![image.png](https://raw.gitcode.com/user-images/assets/7403085/cfb0a01e-4b2b-47f2-9bdb-048dc1eb9ef0/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7403085/c87d6fdd-3d29-4bad-9320-34d04f6a4a3d/image.png 'image.png') - 950 ![image.png](https://raw.gitcode.com/user-images/assets/7403085/56b63bf8-9018-4379-b8a0-057a915101ba/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7403085/b058a623-25a4-4020-be9f-b21e50ad107c/image.png 'image.png') # 【CheckList】 - [x] 代码注释完整，关键 shape 推导原因已说明 - [x] 参数合法性沿用现有校验逻辑 - [x] PR 标题建议使用 `fix: grouped matmul swiglu quant v2 mxfp4 shape infer` - [ ] CI 执行通过 ``` See merge request: Ascend/op-plugin!5049	4 小时前
python	fix: grouped matmul swiglu quant v2 mxfp4 shape infer Co-authored-by: wang_ziqi<wangziqi4@huawei.com> # message auto-generated for no-merge-commit merge: !5049 merge gmm_bugfix into master fix: grouped matmul swiglu quant v2 mxfp4 shape infer Created-by: wang-ziqi-code Commit-by: wang_ziqi Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [x] 问题单 https://atomgit.com/Ascend/op-plugin/issues/84 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】修复 `npu_grouped_matmul_swiglu_quant_v2` 在 Ascend950 MXFP4 / packed FP4 场景下的 output shape 推导问题。 1. 对齐 CANN infer shape 逻辑，MX 场景下 `weightScale` 为 `[E, ceil(K/64), N, 2]`，逻辑 N 应取 `weightScale.dim2`，不能按转置 view 或 FP4 uint8 物理存储再做额外补偿。 2. `npu_grouped_matmul_swiglu_quant_v2_meta` 中移除旧的 `FP4_IN_INT8` output/outputScale shape 补偿逻辑，统一按 CANN 输出： - `output = [M, N / 2]` - `outputScale = [M, ceil((N / 2) / 64), 2]` 3. `GroupedMatmulSwigluQuantV2NpuOpapi.cpp` 中保留 5D NZ 和 950 逻辑 3D weight 的路径区分： - 5D NZ 场景从 `weightScale` 推导逻辑 N。 - Ascend950 逻辑 3D weight 场景继续从 `weight.size(2)` 推导 N。 4. 新增 fake tensor 和 Ascend950 shape-only 用例，覆盖 MXFP4 input + FP8/FP4 output 的 shape 推导，避免 CPU golden 当前不支持 packed float4 MX 输入的问题影响回归看护。 # 【资料变更】不涉及。 # 【接口变更】不涉及 public API / YAML / schema 变更。 # 【功能验证】新增/调整用例： 1. `test/core_tests/test_fake_tensor.py` - 新增 Ascend950 MXFP4 fake tensor shape 回归，覆盖 FP8 output 和 FP4 output。 - 校验 output/outputScale shape 与 CANN infer shape 一致。 2. `test/test_custom_ops/test_npu_grouped_matmul_swiglu_quant_v2.py` - 新增 Ascend950 MXFP4 shape-only 后端用例。 - 覆盖 `x_dtype/weight_dtype=torch_npu.float4_e2m1fn_x2`，`weight_scale_dtype/x_scale_dtype=torch_npu.float8_e8m0fnu`。 - 校验 output/outputScale shape 和 dtype，不做数值 golden。 - 910B ![image.png](https://raw.gitcode.com/user-images/assets/7403085/cfb0a01e-4b2b-47f2-9bdb-048dc1eb9ef0/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7403085/c87d6fdd-3d29-4bad-9320-34d04f6a4a3d/image.png 'image.png') - 950 ![image.png](https://raw.gitcode.com/user-images/assets/7403085/56b63bf8-9018-4379-b8a0-057a915101ba/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7403085/b058a623-25a4-4020-be9f-b21e50ad107c/image.png 'image.png') # 【CheckList】 - [x] 代码注释完整，关键 shape 推导原因已说明 - [x] 参数合法性沿用现有校验逻辑 - [x] PR 标题建议使用 `fix: grouped matmul swiglu quant v2 mxfp4 shape infer` - [ ] CI 执行通过 ``` See merge request: Ascend/op-plugin!5049	4 小时前
third_party	新增_npu_flash_attention_unpad_v2接口，支持310p KERNELTYPE_EXP_M8V2场景 Co-authored-by: gitcode-bot<noreply@gitcode.com> Co-authored-by: hellokitty911<lizhixi2@huawei.com> # message auto-generated for no-merge-commit merge: !4995 merge sfv2 into master 新增_npu_flash_attention_unpad_v2接口，支持310p KERNELTYPE_EXP_M8V2场景 Created-by: hellokitty911 Commit-by: hellokitty911;gitcode-bot Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 https://gitcode.com/Ascend/op-plugin/issues/93 - [ ] 重构优化 - [ ] 资料更新 1. 背景 1.1 问题描述底层 atb 库 SelfAttentionParam 的 KernelType 枚举新增了 KERNELTYPE_EXP_M8V2 值： KernelType 枚举值含义 KERNELTYPE_DEFAULT = 0 i:float16, bmm:float16, o:float16（已有） KERNELTYPE_HIGH_PRECISION = 1 i:float16, bmm:float, o:float16（已有） KERNELTYPE_EXP_M8V2 = 2 i:float16, bmm:float16, exp:m8v2, softmax:default（新增，仅 Atlas 310P）当前 _npu_flash_attention_unpad 将 kernelType 硬编码为 KERNELTYPE_DEFAULT，用户无法选择其他 kernel 类型。KERNELTYPE_HIGH_PRECISION 在底层 atb 库的 BNSDParamCheck() 中对 PA_ENCODER 场景会报错，因此不纳入支持范围。 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!4995	11 天前
utils	TQBMM算子增加NZ输入的单算子通路,增加x1_dtype和x2_dtype可选输入 Co-authored-by: jgx12<jingaoxiang@huawei.com> # message auto-generated for no-merge-commit merge: !4890 merge tqbmm_nz into master TQBMM算子增加NZ输入的单算子通路,增加x1_dtype和x2_dtype可选输入 Created-by: jgx12 Commit-by: jgx12 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> https://gitcode.com/Ascend/op-plugin/issues/111 - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） op-plugin（PyTorch 扩展层）：新增 KernelNpuOpApi 实现，根据 x2 格式分支调用不同 ACLNN 接口 at::Tensor npu_transpose_quant_batchmatmul(...) { // ... 参数处理与 output size 计算 ... bool is_nd_nz_format = op_plugin::utils::is_nz_format(x2) && !op_plugin::utils::is_nz_format(x1); if (is_nd_nz_format) { // x2 为 NZ 格式，调用 WeightNz 版本的 ACLNN 接口 EXEC_NPU_CMD(aclnnTransposeQuantBatchMatMulWeightNz, x1, x2, bias_real, ...); } else { // x2 为 ND 格式，调用标准 ACLNN 接口 EXEC_NPU_CMD(aclnnTransposeQuantBatchMatMul, x1, x2, bias_real, ...); } return result; } # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 涉及接口变更，增加x1_dtype和x2_dtype可选输入。用于当x1，x2为hifloat8时，torch原生不支持，使用x1_dtype和x2_dtype传入对应数据类型 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ![image.png](https://raw.gitcode.com/user-images/assets/7403085/2b51b324-e990-4e7b-aa50-c237d87153c1/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!4890	4 天前
CMakeLists.txt	【feature】add eager DVM lazy fusion support for PTA Eager mode Co-authored-by: hb_hubin<hubin79@huawei.com> # message auto-generated for no-merge-commit merge: !4956 merge pta-dvm-master into master 【feature】add eager DVM lazy fusion support for PTA Eager mode Created-by: hbhu_bin Commit-by: hb_hubin Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 https://gitcode.com/Ascend/pytorch/issues/1732 # 【修改方案】 PTA使能eager模式dvm无图融合算子，开启`TORCH_NPU_LAZY_FUSION=True`进行使能；不开启时，对原有eager流程无影响架构设计 ``` ┌────────────────────────────────────────────────────────────┐ │ PyTorch Eager │ │ torch.add(x, y) / x.silu_() / ... │ └──────────────────────────┬─────────────────────────────────┘ │ aten 调用 ┌──────────────────────────▼─────────────────────────────────┐ │ torch_npu 派发层（codegen 生成） │ │ if (lazy_fusion::IsEnabled("op")) → lazy_fusion::op() │ │ else → op_api::op() / acl_op::op() │ └──────────────────────────┬─────────────────────────────────┘ │ ┌──────────────────┼──────────────────┐ │ │ │ ┌───────▼──────┐ ┌────────▼─────────┐ ┌──────▼─────────┐ │ acl_op:: │ │ op_api:: │ │ lazy_fusion:: │ │ (acl 算子) │ │ (aclnn 算子) │ │ (DVM 融合) │ └──────────────┘ └──────────────────┘ └──────┬─────────┘ │ ┌─────────────▼──────────────┐ │ LazyFusionKernel │ │ - 累积算子到 DVM 图 │ │ - 跨边界自动 Flush │ │ - 调用 dvm::Kernel CodeGen│ └─────────────┬──────────────┘ │ ┌─────────────▼──────────────┐ │ libdvm.a (三方库) │ │ - IR 优化 / 算子融合 │ │ - AiCore kernel 代码生成 │ │ - workspace 管理 │ └────────────────────────────┘ ``` # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” op-plugin PR不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 torch_npu的修改泛化验证97个UT（PR会进行精简），每个UT开启DVM+关闭DVM跑俩遍，比较二者的精度。用例包括：所有涉及单算子用例（多shape+多dtype）、与其他特性协同（aclgraph）、组合算子测试、view场景等新增UT已全量pass ![image.png](https://raw.gitcode.com/user-images/assets/7403085/c6d4851f-0ed0-4733-88b5-66d32710a1a6/image.png 'image.png') 精简用例之后（24个），全部通过 ![image.png](https://raw.gitcode.com/user-images/assets/7403085/794dfc41-e4bd-4bfe-8fb7-76813d5699bb/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/op-plugin!4956	15 天前