pytorch/torch_npu/_inductor · Ascend/pytorch - AtomGit

ascend-robot[inductor] doc for symbolic feature on dynamicshape

文件	最后提交记录	最后更新时间
ascend_npu_ir	refactor decomp Co-authored-by: DaiFu<daifu2@huawei.com> # message auto-generated for no-merge-commit merge: !36764 merge v2.7.1_decomp_1 into v2.7.1 refactor decomp Created-by: daifu1234567 Commit-by: DaiFu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）对decomposition代码进行重构，将原先两个文件中的decomp逻辑都合并至torch_npu\_inductor\decomposition.py文件，并提取公共注册函数。重构不改变原注册函数调用点。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图已本地验证，基础用例跑通： ![image.png](https://raw.gitcode.com/user-images/assets/7404318/f83265d7-baf7-48bd-bb84-e5138b53a9ed/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36764	1 天前
codegen	/lgtm Co-authored-by: kkjocker<hexuanyu1@huawei.com> # message auto-generated for no-merge-commit merge: !37220 merge v2.7.1_fix into v2.7.1 【bugfix】fix NPUWrapperCodeGen.create using none-parameter super() Created-by: kkjocker Commit-by: kkjocker Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> https://gitcode.com/Ascend/pytorch/issues/1962 # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】修复 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/e11496c8-b49a-4623-ad72-3d89cbdd9a7b/image.png 'image.png') 原本是非法零参导致的TypeError，修复方案为新增NPUSubgraphPythonWrapperCodegen继承SubgraphPythonWrapperCodegen，并实现generate_node_numel_expr，改后用例通过： ![image.png](https://raw.gitcode.com/user-images/assets/7404318/834b8ee5-8980-4527-9fda-f91f7508b8f3/image.png 'image.png') # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37220	1 天前
docs	[inductor] doc for symbolic feature on dynamicshape Co-authored-by: rain-666<chenxiaoyu12@huawei.com> # message auto-generated for no-merge-commit merge: !37343 merge v2.7.1_doc into v2.7.1 [inductor] doc for symbolic feature on dynamicshape Created-by: rain-666 Commit-by: rain-666 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37343	42 分钟前
dvm	fix(npu): DVM codegen view_load for memory-planner padding stride Co-authored-by: Margaret_wangrui<wangrui178@huawei.com> # message auto-generated for no-merge-commit merge: !37139 merge v2.7.1_empty_strided_new into v2.7.1 fix(npu): DVM codegen view_load for memory-planner padding stride Created-by: Margaret_wangrui Commit-by: Margaret_wangrui Merged-by: ascend-robot Description: # 【合入来源】 - [ ] 需求 - [x] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 https://gitcode.com/Ascend/pytorch/issues/2165 说明：修复 Inductor + DVM/MFusion 路径下 `nvidia_deeprecommender` 等模型 float32 精度异常。根因为 memory planner 为中间 buffer 分配对齐 padding stride，而 DVM fused kernel 通过 `k.load(shape)` 按逻辑 contiguous stride 读 GM，与真实 buffer layout 不一致。现象：Inductor memory planner 为 bool 等 buffer 分配对齐 padding stride（如 `(198016, 1)`），FX FakeTensor meta 仍表现为逻辑 contiguous（如 `(197951, 1)`）。MFusion/DVM codegen 误判为 `k.load`，读取 GELU backward 等路径 mask buffer 时行列偏移错误，导致精度失败。纯 Inductor（不开 MFusion）无此问题，因不走 DVM `k.load` 路径。本 PR 范围：在 DVM codegen 消费端，从 Inductor buffer layout 解析真实 stride，对 padding row stride 生成 `k.view_load(shape, stride, dtype)`，而非修改 wrapper 侧 `empty_strided` 分配 stride。 # 【修改方案】 ### 1. 新增 `load_codegen.py`（核心）路径：`torch_npu/_inductor/dvm/load_codegen.py` \| 函数 \| 作用 \| \|------\|------\| \| `strides_match_contiguous()` \| 判断 stride 是否为逻辑 row-major contiguous（区分 padding stride） \| \| `choose_load_codegen()` \| 逻辑 contiguous → `k.load`；padding row stride（末维为 1）→ `k.view_load`；不可 view → `k.load` + `cont_flag=False` \| \| `patch_gm_placeholder_strides_from_codegen_args()` \| wrapper codegen 时通过 `V.graph.try_get_buffer(name)` 取 Inductor layout 真实 stride，写回 `gm` placeholder 的 `meta["val"]` \| \| `_hint_int()` \| 兼容 UT / 非 compile 上下文（`V.graph` 为 `NullHandler` 时兜底） \| 选型规则（示例）： \| size \| stride \| 生成代码 \| \|------\|--------\|----------\| \| `(256, 197951)` \| `(197951, 1)` \| `k.load([256, 197951], dtype)` \| \| `(256, 197951)` \| `(198016, 1)` \| `k.view_load([256, 197951], [198016, 1], dtype)` \| ### 2. 改造 `graph_build.py` - `DvmCodegenInterpreter.placeholder()` 直接读取 `meta["val"].stride()`，统一通过 `choose_load_codegen()` 替代原先仅依赖 `val.is_contiguous()` 的分支。 - 不再新增 `input_strides` 旁路参数；stride 信息由 codegen 前 patch 后的 FX meta 承载。 - `is_fx_dynamic()` 对缺失 `meta["val"]` 的节点安全跳过。 ### 3. 接入 MFusion / DVM graph fusion - `mfusion/graph_fusion.py` — `_emit_mfusion_dvm_codegen`：对 fallback 实参 buffer 调用 `patch_gm_placeholder_strides_from_codegen_args(sub_gm, args_list)`，再创建 `DvmCodegenInterpreter`。 - `dvm/graph_fusion.py` — `_dvm_generate_fallback_kernel`：codegen 前对 `meta.gm` 同样 patch placeholder stride；`_FusedMeta.codegen()` 签名不变。 ### 4. 数据流（本 PR 触及部分） ``` Inductor Graph（memory planner → padding stride 写入 buffer layout） → Wrapper codegen（generate_fallback_kernel，buffer 名如 buf0） → patch_gm_placeholder_strides_from_codegen_args(gm, ["buf0", ...]) → placeholder meta["val"] stride 更新为 (198016, 1) → DvmCodegenInterpreter(gm).run() → placeholder 读 meta["val"].stride() → choose_load_codegen() → 生成 k.view_load([256, 197951], [198016, 1], bool) ← 本 PR → DVM runtime 按真实 stride 读 GM（无需 .contiguous() 拷贝） ``` 本 PR 不改 memory planner 分配语义，仅在 DVM 读端对齐 layout；stride 通过 FX meta 传递，与 Inductor 其它 pass 读 `meta["val"]` 的方式一致。 # 【资料变更】不涉及 # 【接口变更】不涉及 - 无新增/变更对外 Python API、C++ 公开头文件或跨仓 RPC 接口。 - 行为变化限于 DVM / MFusion Inductor codegen 路径下 fused kernel 输入的 load 代码生成；非 DVM/MFusion 路径无影响。 # 【功能验证】 ### 1.. 模型精度（torchbench） ```bash cd benchmarks/torchbench python3 torchbench.py --accuracy --training --float32 \ --backend inductor --devices npu --npu-backend dvm --mfusion \ --only nvidia_deeprecommender --iterations 50 ``` 期望： - 精度与 eager 一致（`pass_accuracy`）； - 编译产物中 MFusion/DVM fused kernel 对 mask 类输入生成 `k.view_load(..., [198016, 1], ...)`（或等价 padding stride），而非仅 `k.load`。自验证： > - torchbench：`nvidia_deeprecommender` float32 + mfusion + dvm accuracy 通过 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/0747a421-c995-421a-b76b-12dc86f7fa84/image.png 'image.png') # 【CheckList】 - [x] 代码注释完备（`load_codegen.py` 模块与关键函数有 docstring） - [x] 边界处理（padding stride / 逻辑 contiguous / 不可 view / 缺失 buffer / NullHandler UT 兼容） - [x] PR 标题使用类型标签：`fix(npu): DVM codegen view_load for memory-planner padding stride` - [x] PR 持续集成流水线（CI）执行通过（合入前由 CI 最终确认） See merge request: Ascend/pytorch!37139	1 天前
fx_passes	fx graph图融合能力增强 Co-authored-by: xudezheng<xudezheng1@huawei.com> # message auto-generated for no-merge-commit merge: !36145 merge dezheng_v2.7.1 into v2.7.1 fx graph图融合能力增强 Created-by: crazyDannyBoy Commit-by: xudezheng Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36145	13 天前
kernel	[Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36534 merge v2.7.1-dev into v2.7.1 [Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2099?ref=&did=4045338#tid-4045338 # 【修改方案】 1. refactor AOTI codes 2. add aoti shim update code for torchnpugen, generate header file of npu fallback kernel 3. add c shim for AOTI and cpp_wrapper # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36534	7 天前
mfusion	fix(npu): DVM codegen view_load for memory-planner padding stride Co-authored-by: Margaret_wangrui<wangrui178@huawei.com> # message auto-generated for no-merge-commit merge: !37139 merge v2.7.1_empty_strided_new into v2.7.1 fix(npu): DVM codegen view_load for memory-planner padding stride Created-by: Margaret_wangrui Commit-by: Margaret_wangrui Merged-by: ascend-robot Description: # 【合入来源】 - [ ] 需求 - [x] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 https://gitcode.com/Ascend/pytorch/issues/2165 说明：修复 Inductor + DVM/MFusion 路径下 `nvidia_deeprecommender` 等模型 float32 精度异常。根因为 memory planner 为中间 buffer 分配对齐 padding stride，而 DVM fused kernel 通过 `k.load(shape)` 按逻辑 contiguous stride 读 GM，与真实 buffer layout 不一致。现象：Inductor memory planner 为 bool 等 buffer 分配对齐 padding stride（如 `(198016, 1)`），FX FakeTensor meta 仍表现为逻辑 contiguous（如 `(197951, 1)`）。MFusion/DVM codegen 误判为 `k.load`，读取 GELU backward 等路径 mask buffer 时行列偏移错误，导致精度失败。纯 Inductor（不开 MFusion）无此问题，因不走 DVM `k.load` 路径。本 PR 范围：在 DVM codegen 消费端，从 Inductor buffer layout 解析真实 stride，对 padding row stride 生成 `k.view_load(shape, stride, dtype)`，而非修改 wrapper 侧 `empty_strided` 分配 stride。 # 【修改方案】 ### 1. 新增 `load_codegen.py`（核心）路径：`torch_npu/_inductor/dvm/load_codegen.py` \| 函数 \| 作用 \| \|------\|------\| \| `strides_match_contiguous()` \| 判断 stride 是否为逻辑 row-major contiguous（区分 padding stride） \| \| `choose_load_codegen()` \| 逻辑 contiguous → `k.load`；padding row stride（末维为 1）→ `k.view_load`；不可 view → `k.load` + `cont_flag=False` \| \| `patch_gm_placeholder_strides_from_codegen_args()` \| wrapper codegen 时通过 `V.graph.try_get_buffer(name)` 取 Inductor layout 真实 stride，写回 `gm` placeholder 的 `meta["val"]` \| \| `_hint_int()` \| 兼容 UT / 非 compile 上下文（`V.graph` 为 `NullHandler` 时兜底） \| 选型规则（示例）： \| size \| stride \| 生成代码 \| \|------\|--------\|----------\| \| `(256, 197951)` \| `(197951, 1)` \| `k.load([256, 197951], dtype)` \| \| `(256, 197951)` \| `(198016, 1)` \| `k.view_load([256, 197951], [198016, 1], dtype)` \| ### 2. 改造 `graph_build.py` - `DvmCodegenInterpreter.placeholder()` 直接读取 `meta["val"].stride()`，统一通过 `choose_load_codegen()` 替代原先仅依赖 `val.is_contiguous()` 的分支。 - 不再新增 `input_strides` 旁路参数；stride 信息由 codegen 前 patch 后的 FX meta 承载。 - `is_fx_dynamic()` 对缺失 `meta["val"]` 的节点安全跳过。 ### 3. 接入 MFusion / DVM graph fusion - `mfusion/graph_fusion.py` — `_emit_mfusion_dvm_codegen`：对 fallback 实参 buffer 调用 `patch_gm_placeholder_strides_from_codegen_args(sub_gm, args_list)`，再创建 `DvmCodegenInterpreter`。 - `dvm/graph_fusion.py` — `_dvm_generate_fallback_kernel`：codegen 前对 `meta.gm` 同样 patch placeholder stride；`_FusedMeta.codegen()` 签名不变。 ### 4. 数据流（本 PR 触及部分） ``` Inductor Graph（memory planner → padding stride 写入 buffer layout） → Wrapper codegen（generate_fallback_kernel，buffer 名如 buf0） → patch_gm_placeholder_strides_from_codegen_args(gm, ["buf0", ...]) → placeholder meta["val"] stride 更新为 (198016, 1) → DvmCodegenInterpreter(gm).run() → placeholder 读 meta["val"].stride() → choose_load_codegen() → 生成 k.view_load([256, 197951], [198016, 1], bool) ← 本 PR → DVM runtime 按真实 stride 读 GM（无需 .contiguous() 拷贝） ``` 本 PR 不改 memory planner 分配语义，仅在 DVM 读端对齐 layout；stride 通过 FX meta 传递，与 Inductor 其它 pass 读 `meta["val"]` 的方式一致。 # 【资料变更】不涉及 # 【接口变更】不涉及 - 无新增/变更对外 Python API、C++ 公开头文件或跨仓 RPC 接口。 - 行为变化限于 DVM / MFusion Inductor codegen 路径下 fused kernel 输入的 load 代码生成；非 DVM/MFusion 路径无影响。 # 【功能验证】 ### 1.. 模型精度（torchbench） ```bash cd benchmarks/torchbench python3 torchbench.py --accuracy --training --float32 \ --backend inductor --devices npu --npu-backend dvm --mfusion \ --only nvidia_deeprecommender --iterations 50 ``` 期望： - 精度与 eager 一致（`pass_accuracy`）； - 编译产物中 MFusion/DVM fused kernel 对 mask 类输入生成 `k.view_load(..., [198016, 1], ...)`（或等价 padding stride），而非仅 `k.load`。自验证： > - torchbench：`nvidia_deeprecommender` float32 + mfusion + dvm accuracy 通过 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/0747a421-c995-421a-b76b-12dc86f7fa84/image.png 'image.png') # 【CheckList】 - [x] 代码注释完备（`load_codegen.py` 模块与关键函数有 docstring） - [x] 边界处理（padding stride / 逻辑 contiguous / 不可 view / 缺失 buffer / NullHandler UT 兼容） - [x] PR 标题使用类型标签：`fix(npu): DVM codegen view_load for memory-planner padding stride` - [x] PR 持续集成流水线（CI）执行通过（合入前由 CI 最终确认） See merge request: Ascend/pytorch!37139	1 天前
runtime	update costmodel usage Co-authored-by: ZhangZGC<8623924@qq.com> # message auto-generated for no-merge-commit merge: !37019 merge v2.7.1_costmodel into v2.7.1 update costmodel usage Created-by: ZhangZGC Commit-by: ZhangZGC Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 [#2088](https://gitcode.com/Ascend/pytorch/issues/2088) # 【修改方案】 1、修改ta costmodel接口调用的形式，将入参改为config + ttir + 必要的参数； 2、将topk环境变量改为ratio，用于适配config数量差距特别大的情况，按照比例来过滤config。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37019	4 天前
tools	fix: lintrunner --all-files --take NEWLINE -a Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35871 merge v2.7.1_lintrunner into v2.7.1 fix: lintrunner --all-files --take NEWLINE -a Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35871	15 天前
__init__.py	refactor decomp Co-authored-by: DaiFu<daifu2@huawei.com> # message auto-generated for no-merge-commit merge: !36764 merge v2.7.1_decomp_1 into v2.7.1 refactor decomp Created-by: daifu1234567 Commit-by: DaiFu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）对decomposition代码进行重构，将原先两个文件中的decomp逻辑都合并至torch_npu\_inductor\decomposition.py文件，并提取公共注册函数。重构不改变原注册函数调用点。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图已本地验证，基础用例跑通： ![image.png](https://raw.gitcode.com/user-images/assets/7404318/f83265d7-baf7-48bd-bb84-e5138b53a9ed/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36764	1 天前
async_compile.py	【inductor】Add Catlass backend Co-authored-by: shi-bibibi99<shiyufeng8@huawei.com> # message auto-generated for no-merge-commit merge: !28757 merge 1227_catlass_v2.7.1 into v2.7.1 【inductor】Add Catlass backend Created-by: shi-yufeng99 Commit-by: shi-bibibi99 Merged-by: ascend-robot Description: 【inductor】Add Catlass backend <!-- Thanks for sending a pull request! --> What type of PR is this? > /kind feature What does this PR do / why do we need it: Add catlass backend for torch.mm, torch.bmm, and torch.addmm when enable compiling in max_autotune mode. Its usage is basically equal to the cutlass backend for NVIDIA GPU. An example to enable catlass backend for torch.compile: ``` # git clone https://gitee.com/ascend/catlass.git /tmp/catlass import torch import torch_npu from torch._inductor import config from torch_npu._inductor import config as npu_config config.max_autotune = True config.max_autotune_gemm_backends = "CATLASS,ATen" npu_config.catlass.catlass_dir = /tmp/catlass npu_config.catlass.catlass_max_profiling_configs = 4 ``` Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!28757	4 个月前
autotune_process.py	【inductor】Add Catlass backend Co-authored-by: shi-bibibi99<shiyufeng8@huawei.com> # message auto-generated for no-merge-commit merge: !28757 merge 1227_catlass_v2.7.1 into v2.7.1 【inductor】Add Catlass backend Created-by: shi-yufeng99 Commit-by: shi-bibibi99 Merged-by: ascend-robot Description: 【inductor】Add Catlass backend <!-- Thanks for sending a pull request! --> What type of PR is this? > /kind feature What does this PR do / why do we need it: Add catlass backend for torch.mm, torch.bmm, and torch.addmm when enable compiling in max_autotune mode. Its usage is basically equal to the cutlass backend for NVIDIA GPU. An example to enable catlass backend for torch.compile: ``` # git clone https://gitee.com/ascend/catlass.git /tmp/catlass import torch import torch_npu from torch._inductor import config from torch_npu._inductor import config as npu_config config.max_autotune = True config.max_autotune_gemm_backends = "CATLASS,ATen" npu_config.catlass.catlass_dir = /tmp/catlass npu_config.catlass.catlass_max_profiling_configs = 4 ``` Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!28757	4 个月前
codecache.py	[Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36534 merge v2.7.1-dev into v2.7.1 [Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2099?ref=&did=4045338#tid-4045338 # 【修改方案】 1. refactor AOTI codes 2. add aoti shim update code for torchnpugen, generate header file of npu fallback kernel 3. add c shim for AOTI and cpp_wrapper # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36534	7 天前
config.py	[revert][inductor][fix] delete the ops from fallback_lsit and remove "config.fallback_random = True" Co-authored-by: q00887602<qinhanmin@huawei.com> # message auto-generated for no-merge-commit merge: !37194 merge v2.7.1 into v2.7.1 [revert][inductor][fix] delete the ops from fallback_lsit and remove "config.fallback_random = True" Created-by: qindong0 Commit-by: q00887602 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2159 - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37194	3 天前
cpp_builder.py	【inductor】fix cflags bug Co-authored-by: kkjocker<hexuanyu1@huawei.com> # message auto-generated for no-merge-commit merge: !33307 merge v2.7.1_fix into v2.7.1 【inductor】fix cflags bug Created-by: kkjocker Commit-by: kkjocker Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [x] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > “不涉及” # 【接口变更】 > “不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!33307	1 个月前
decomposition.py	refactor decomp Co-authored-by: DaiFu<daifu2@huawei.com> # message auto-generated for no-merge-commit merge: !36764 merge v2.7.1_decomp_1 into v2.7.1 refactor decomp Created-by: daifu1234567 Commit-by: DaiFu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）对decomposition代码进行重构，将原先两个文件中的decomp逻辑都合并至torch_npu\_inductor\decomposition.py文件，并提取公共注册函数。重构不改变原注册函数调用点。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图已本地验证，基础用例跑通： ![image.png](https://raw.gitcode.com/user-images/assets/7404318/f83265d7-baf7-48bd-bb84-e5138b53a9ed/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36764	1 天前
dependencies.py	[Inductor] cat community solution Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !33613 merge v2.7.1-cat into v2.7.1 [Inductor] cat community solution Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: # 【合入来源】 cat community soluton - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 1. make cat follow pytorch community solution, remove exist insert_slice/extract_slice and cat_store implement, but currently support A5, A2 A3 cat lowering will be supported soon 2. move decide_codegen_dims_in_kernel into NPUIndexTritonKernel 3. NPUCombinedScheduling now extern CUDACombinedScheduling, remove useless override function 4. bugfix for decide_codegen_dims_in_kernel when var not in range_tree_nodes_removed 5. change reduction line from post_loop_store to post_loop_combine # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci passes # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!33613	1 个月前
fasta_autotune.py	[Inductor] remove triton dependency for mlir/dvm backend Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !33764 merge v2.7.1-dev into v2.7.1 [Inductor] remove triton dependency for mlir/dvm backend Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: # 【合入来源】 issue from mlir/dvm backend error - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1. clear _inductor/codegen/__init__.py, move all patch to other file # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci passes # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!33764	1 个月前
graph.py	[Inductor] cat support kernels split Y axis and bugfix for cpp_wrapper Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36085 merge v2.7.1-dev into v2.7.1 [Inductor] cat support kernels split Y axis and bugfix for cpp_wrapper Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/1990?ref=&did=4029765#tid-4029765 - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1. bugfix for generate_save_uncompiled_kernels function in 2. add correct clone_preserve_strides imports for wrapper.py 3. for lowering aten.cat, we never use mask+where solution 4. add aten.cat into LOWERING_OVERRIDE_OP, then remove it from INDIRECT_MEM_FALLBACK_LIST, now cat can lowering on A2/A3 device 5. remove docs for USE_STORE_IN_CAT environment param 6. add support of cat combo kernel with Y split # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36085	13 天前
ir.py	[Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36534 merge v2.7.1-dev into v2.7.1 [Inductor] AOTI refactor, cpp_wrapper&aoti support c shim Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2099?ref=&did=4045338#tid-4045338 # 【修改方案】 1. refactor AOTI codes 2. add aoti shim update code for torchnpugen, generate header file of npu fallback kernel 3. add c shim for AOTI and cpp_wrapper # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36534	7 天前
lowering.py	[Inductor] NPUTritonScheduling no more support BackendFeature.FOREACH Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36908 merge v2.7.1-tmp into v2.7.1 [Inductor] NPUTritonScheduling no more support BackendFeature.FOREACH Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2099?ref=&did=4045338#tid-4045338 # 【修改方案】 1. bugfix for npu_fallback_list 2. remove feature FOREACH for NPUTritonScheduling 3. fix alignment for cpp_wrapper kernel launch # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36908	5 天前
lowering_fallback_list.py	[revert][inductor][fix] delete the ops from fallback_lsit and remove "config.fallback_random = True" Co-authored-by: q00887602<qinhanmin@huawei.com> # message auto-generated for no-merge-commit merge: !37194 merge v2.7.1 into v2.7.1 [revert][inductor][fix] delete the ops from fallback_lsit and remove "config.fallback_random = True" Created-by: qindong0 Commit-by: q00887602 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/2159 - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37194	3 天前
lowering_fx.py	[inductor][acc] lowring_fx add register split Co-authored-by: AACAES<liuyan7892@163.com> # message auto-generated for no-merge-commit merge: !36516 merge v2.7.1 into v2.7.1 [inductor][acc] lowring_fx add register split Created-by: AACAES Commit-by: AACAES Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> https://gitcode.com/Ascend/pytorch/issues/2107 - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）原始分支添加lowering split，精度工具对应添加 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b4411085-7475-4765-a61e-c1e1b88efa5b/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36516	7 天前
lowering_override_list.py	[Inductor] cat support kernels split Y axis and bugfix for cpp_wrapper Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !36085 merge v2.7.1-dev into v2.7.1 [Inductor] cat support kernels split Y axis and bugfix for cpp_wrapper Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/1990?ref=&did=4029765#tid-4029765 - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1. bugfix for generate_save_uncompiled_kernels function in 2. add correct clone_preserve_strides imports for wrapper.py 3. for lowering aten.cat, we never use mask+where solution 4. add aten.cat into LOWERING_OVERRIDE_OP, then remove it from INDIRECT_MEM_FALLBACK_LIST, now cat can lowering on A2/A3 device 5. remove docs for USE_STORE_IN_CAT environment param 6. add support of cat combo kernel with Y split # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci pass # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!36085	13 天前
npu_compare.py	[fix][inductor][acc tool]add dump path Co-authored-by: AACAES<liuyan7892@163.com> # message auto-generated for no-merge-commit merge: !37033 merge v2.7.1 into v2.7.1 [fix][inductor][acc tool]add dump path Created-by: AACAES Commit-by: AACAES Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> https://gitcode.com/Ascend/pytorch/issues/2160 - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）添加dump path # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/7ebe5926-d471-4fbc-862a-70e351bea977/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37033	4 天前
npu_static_kernel.py	mlir_enabling_method Co-authored-by: cuiduo<cuiduo1@huawei.com> # message auto-generated for no-merge-commit merge: !29559 merge v2.7.1 into v2.7.1 mlir_enabling_method Created-by: cuiduo Commit-by: cuiduo Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? > /kind task What does this PR do / why do we need it: The enabling method of MLIR has been changed, and a new enabling method has been added，currently, there are three usage methods in total. Example 1 of Usage ： ``` torch._inductor.config.npu_backend == "mlir" torch.compile(op_calc)(x) ``` Example 2 of Usage ： `torch.compile(op_calc,options={"npu_backend":"mlir"})(x)` Example 3 of Usage ： ``` import os os.environ['TORCHINDUCTOR_NPU_BACKEND'] = 'mlir' torch.compile(op_calc)(x) ``` See merge request: Ascend/pytorch!29559	4 个月前
profiler.py	fastautotune算法回合主干 Co-authored-by: wild-mechanical-small-flat<514123661@qq.com> # message auto-generated for no-merge-commit merge: !29446 merge v2.7.1 into v2.7.1 fastautotune算法回合主干 Created-by: wild-mechanical-small-flat Commit-by: wild-mechanical-small-flat Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? > feature What does this PR do / why do we need it: 新增fastaautotune算法，用于vv算子的tile调优。 Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!29446	4 个月前
scheduler.py	[Inductor] remove triton dependency for mlir/dvm backend Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !33764 merge v2.7.1-dev into v2.7.1 [Inductor] remove triton dependency for mlir/dvm backend Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: # 【合入来源】 issue from mlir/dvm backend error - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1. clear _inductor/codegen/__init__.py, move all patch to other file # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci passes # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!33764	1 个月前
select_algorithm.py	[Inductor] add aoti support Co-authored-by: zhuceHW<zhuce@huawei.com> # message auto-generated for no-merge-commit merge: !32378 merge v2.7.1-aoti into v2.7.1 [Inductor] add aoti support Created-by: zhucehw Commit-by: zhuceHW Merged-by: ascend-robot Description: # 【合入来源】 add aoti support - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 1. add ffts check, device guard, dynamic shape support for AOTInductor, make CppWrapperNpu extends CppWrapperGpu, make fallback when cpp_wrapper meets mm/bmm/gmm, add utils_npu.h, shim_npu.h shim_npu.cpp into csrc\inductor, now AOTI works for v2.7.1 in A2\A3\A5 2. refactor triton heuristic logic, now get_heuristic will return heuristic type like community('pointwise', 'reduction' etc) # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 ci passes # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!32378	2 个月前
shape_handling.py	[Inductor] coverage/add test for shape handle Co-authored-by: luqichao<luqichao1@huawei.com> # message auto-generated for no-merge-commit merge: !31536 merge test/shape_handle into v2.7.1 [Inductor] coverage/add test for shape handle Created-by: luqichao Commit-by: luqichao Merged-by: ascend-robot Description: 补充shape_handle UT, 行覆盖94% 分支覆盖92% ![image.png](https://raw.gitcode.com/user-images/assets/7404318/95f58e93-784c-4c98-bb62-4c01069994a8/image.png 'image.png') See merge request: Ascend/pytorch!31536	2 个月前
utils.py	bugfix: apply the has_triton_tma. Co-authored-by: yvjc<yujincheng7@huawei.com> # message auto-generated for no-merge-commit merge: !35023 merge bugfix_v271 into v2.7.1 bugfix: apply the has_triton_tma. Created-by: yvjc Commit-by: yvjc Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35023	25 天前