pytorch/torch_npu/utils · Ascend/pytorch - AtomGit

ascend-robot[fix] Init version in GetCANNVersion and delete unnecessary warning

文件	最后提交记录	最后更新时间
__init__.py	refactor for torch_npu init module. Co-authored-by: bellatan<tanmei2@huawei.com> # message auto-generated for no-merge-commit merge: !35338 merge torch_npu_init_refactor into master refactor for torch_npu init module. Created-by: bellatan Commit-by: bellatan Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】本 PR 对 `torch_npu` 初始化链路进行重构，将原先集中在 `torch_npu/__init__.py` 中的初始化逻辑拆分到 `_init` 目录下的多个职责模块中，形成“顶层编排 + 子模块分阶段执行 + 内部能力统一收口”的结构。重构后，`torch_npu/__init__.py` 不再承载大量具体业务初始化细节，只负责固定初始化时序。各类具体能力分别由 `_check_device_conflict`、`_load_core_modules`、`_register_components`、`_apply_patches`、`_enable_optional_features`、`_initialize_runtime_lifecycle` 等内部函数承接。 ## 一、核心修改 ### 1. 重构 `torch_npu/__init__.py` 顶层初始化入口重构后的初始化流程如下： `python def _initialize(): _check_device_conflict() _load_core_modules() _register_components() _apply_patches() _enable_optional_features() _initialize_runtime_lifecycle()` 顶层入口主要负责： 1. 维护 `__all__`； 2. 在 `import torch` 前关闭 `TORCH_DEVICE_BACKEND_AUTOLOAD`，避免 PyTorch 后端自动加载导致循环依赖； 3. 提前导入 `torch_npu.utils.patch_getenv`，用于捕获初始化阶段的环境变量访问； 4. 按固定顺序调用各初始化阶段入口； 5. 保留 `_autoload()` 作为 PyTorch 后端自动加载入口，用于恢复 `TORCH_DEVICE_BACKEND_AUTOLOAD`。 --- ### 2. 新增 `_init` 目录：目录结构如下： `text torch_npu/_init/ __init__.py common/ warning_utils.py core/ _exports.py module_loader.py optional_features.py runtime_lifecycle.py patches/ __init__.py api_patches.py asd_patches.py distributed_patches.py dynamo_patches.py monkey_patches.py npu_patches.py patch_manager.py profiler_patches.py warning_patches.py registry/ __init__.py backend.py distributed.py dynamo.py registry_manager.py` --- ### 3. 通过 `_check_device_conflict()` 处理前置设备冲突检查 `_check_device_conflict()`：负责最早期的设备冲突检查，避免 NPU 与其他 accelerator 同时启用。该接口属于初始化内部逻辑，不作为 public API 暴露。 --- ### 4. 通过 `_load_core_modules()` 统一管理核心模块加载、注册副作用和顶层 API 导出 `_load_core_modules()` 将原先散落在 `torch_npu/__init__.py` 中的模块导入、底层 `_C` 子模块准备、基础 runtime 支撑模块初始化、导入即注册副作用以及顶层 API 导出统一收口。该阶段主要负责： 1. 加载 `torch_npu` 初始化所需的核心模块； 2. 统一准备 `_C` child submodules； 3. 初始化 logging、profiler、distributed 等基础组件； 4. 在 `_C` 准备完成后进行 `torch_npu.npu` 导入检查； 5. 加载需要通过 import 触发注册副作用的 Python 模块； 6. 导出 `torch_npu` 顶层 public API。具体包括： * `_C` 子模块初始化：统一创建并注册 `_profiler`、`_distributed_c10d`、`_cd`、`_logging`、`_flops_count` 等 `_C` child submodules，保证业务 Python 模块只消费这些子模块，不再各自创建。 * `torch_npu.npu` 导入检查：在 `_C` 子模块完成准备后再检查 `torch_npu.npu` 导入状态，既保留对底层依赖缺失的友好报错，又避免 `_C` 未就绪时提前 import `torch_npu.npu` 导致循环导入。 * 导入副作用模块加载：统一加载需要通过 import 触发注册副作用的模块，例如 aclnn、optim、afd、custom ops、op_plugin、meta registrations 等，避免注册类副作用散落在初始化流程中。 * 顶层 API 导出：通过 `export_all` 将 `torch_npu` 顶层公开 API 统一导出到 `globals()` 和 `__all__` 中，保证 public API 行为与旧版兼容。 * lazy Python API：对 `HiFloat8Tensor`、`erase_stream`、`matmul_checksum` 等接口采用 lazy export，保证接口可见但不在 import 阶段立即加载对应模块，减少循环导入风险。 * NPU custom ops：将 `torch.ops.npu` 下的公开算子导出到 `torch_npu` 顶层，并保留 `torch.<op>` deprecated wrapper。 * dtype symbols：将 `_C._cd.DType` 中的 dtype 符号导出到 `torch_npu` 顶层。 --- ### 5. 通过 `_register_components()` 统一管理框架集成注册 `_register_components()` 负责 backend 和 framework integration 注册，将原先散落在顶层入口中的 NPU backend、distributed、Dynamo、RPC、Inductor 等注册逻辑统一收口。通过该阶段统一收口后，框架集成注册逻辑不再散落在顶层 `__init__.py` 中，后续新增集成能力时可直接在 registry 目录下维护。该阶段主要负责： * NPU backend 注册：将 PyTorch PrivateUse1 backend 映射为 NPU，并注册 `torch.npu` 设备模块和相关方法。 * distributed backend 注册：注册 HCCL、LCCL backend，保证 NPU distributed 能力可用。 * Dynamo 注册：注册 Dynamo backend、NPU device interface 和 trace rules，保证 NPU 能接入 Dynamo 编译链路。 * RPC 注册：注册 NPU RPC backend，保证 RPC 场景下 NPU backend 可用。 * Inductor lightweight override 注册：只注册轻量级 NPU device op override，避免 import 阶段提前加载 heavy module。 * 默认 gradient device type 配置：保持 checkpoint 等场景下默认设备类型与旧行为兼容。 --- ### 6. 通过 `_apply_patches()` 统一管理 patch 注册与执行引入集中式 patch 管理机制，统一收口原先散落在初始化入口中的 patch 逻辑。顶层入口 `_apply_patches()` 负责触发 patch 发现、注册和执行，具体由 `PatchManager` 承接。`_apply_patches()` 主要完成以下工作： 1. patch 分组注册：各组件 patch 按 group 注册，例如 monkey、api、distributed、dynamo、profiler、npu、warning、asd 等。 2. 内置 patch 自动发现：`PatchManager` 会自动扫描 `_init/patches` 下符合命名规则的 patch 模块。模块被导入后，内部 patch 会完成注册。 3. 固定 patch 执行顺序：patch group 按默认顺序执行，避免 import 顺序变化导致 patch 行为漂移。 4. 支持自定义 patch 顺序：`PatchManager` 支持调整 patch group 执行顺序，便于测试或特殊场景扩展。 5. 异常钩子统一处理：全局异常钩子由 `PatchManager.run()` 统一处理，便于初始化失败和运行时异常场景的集中管理。 --- ### 7. 通过 `_enable_optional_features()` 统一管理可选运行时能力将 sanitizer、交互式模式配置、`transfer_to_npu` 等可选能力统一收口到 `_enable_optional_features()`，避免可选逻辑散落在顶层初始化入口。该阶段主要包括： `python _enable_sanitizer_if_needed() _configure_interactive_mode() _enable_transfer_to_npu_if_needed()` 具体说明： * sanitizer：仅在用户显式配置 `TORCH_NPU_SANITIZER` 时启用； * interactive mode：在交互式命令行环境中自动设置相关运行配置，并给出 warning 提示； * transfer_to_npu：通过 `TORCH_TRANSFER_TO_NPU` 控制是否启用，对非法配置进行显式报错。 --- ### 8. 通过 `_initialize_runtime_lifecycle()` 统一管理 runtime 生命周期 `_initialize_runtime_lifecycle()` 专门负责最终 C++ extension 初始化屏障和进程退出阶段的 shutdown hook 注册。该阶段主要包括： * extension finalize：调用 `torch_npu._C._initExtension()` 完成最终 C++ extension 绑定。该阶段放在核心模块加载、框架注册、API 导出和 patch 执行之后，保证 Python 侧初始化准备完成后再进入最终 extension barrier。 * shutdown hook 注册：负责注册进程退出阶段的 NPU 资源清理逻辑，包括设备同步、distributed 资源析构、异常处理和其他 runtime 清理流程。 --- ## 三、重构目的和收益本次重构的目标是把 `torch_npu` 初始化从“单文件集中式副作用堆叠”调整为“阶段化、组件化、可维护”的初始化框架。主要收益包括： 1. 顶层入口更清晰 `torch_npu/__init__.py` 只保留初始化编排，不再堆叠大量具体 import、注册、patch 和 shutdown 逻辑。 2. 初始化顺序更稳定 `_C` 子模块和基础 runtime 支撑能力统一由 `_load_core_modules` 准备，降低循环导入和 `_C` 未就绪时提前访问的风险。 3. 组件职责更清楚模块加载、框架注册、API 导出、patch、可选功能、runtime 生命周期分别由不同接口承接。 4. patch 更易维护各组件 patch 可以在自己的文件中维护，由 `PatchManager` 自动发现和统一执行，减少顶层冲突。 5. 支持后续扩展新增初始化能力时，只需放到对应处理的接口或 patch group 中，不需要继续膨胀 `__init__.py`。 6. 便于问题定位初始化链路被拆成明确阶段，出现问题时可以快速判断是模块加载、注册、导出、patch、optional feature 还是 runtime lifecycle 阶段异常。 --- ## 四、兼容性说明本次重构保持以下兼容性： 1. `import torch_npu` 行为保持兼容； 2. 顶层公开 API 保持兼容； 3. `__version__` 仍从 `torch_npu.version` 导出。 --- ## 五、PatchManager 机制说明本 PR 引入 `PatchManager`，用于统一管理 `torch_npu` 初始化阶段的 patch 注册与执行。原先 patch 逻辑集中在 `torch_npu/__init__.py` 中，和初始化流程、模块导入、框架注册逻辑混在一起，导致顶层文件过重，也不利于各组件独立维护。本次重构后，patch 逻辑从顶层入口中解耦，由 `_apply_patches()` 作为顶层入口触发执行，具体注册、发现、排序、幂等保护由 `PatchManager` 管理。 `PatchManager` 主要支持以下能力： 1. patch 按 group 分组注册； 2. 内置 patch 模块自动发现； 3. patch 按固定顺序执行； 4. patch 执行具备幂等保护； 5. 支持组件自行维护 patch module； 6. 支持按 group 执行，为后续按需使能 patch 打基础； 7. 支持自定义 patch 顺序，便于测试和问题定位。整体机制如下： `text 组件 patch 文件自注册 ↓ PatchManager 自动发现/加载 ↓ 按 group 统一管理 ↓ 按固定顺序执行 ↓ 幂等保护，避免重复 patch` --- ### 场景一：新增 torch_npu 内置 patch 如果新增的是 `torch_npu` 内置 patch，例如 distributed patch、profiler patch、NPU API patch、warning patch、ASD patch 等，可以直接放到：`torch_npu/_init/patches/` 目录下，并按 group 注册。示例： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("profiler") def apply_profiler_patch(): ...` 使用方式： `text 1. 在 _init/patches 下新增或修改对应 *_patches.py 文件； 2. 在文件中通过 @PatchManager.register_patch(group) 注册 patch； 3. import torch_npu 时，由 _apply_patches() 统一触发； 4. PatchManager 自动发现并按 group 顺序执行。` --- ### 场景二：组件自行维护 patch module 如果某个组件自己的目录下新加了patch 文件，通过 patch module 注册机制接入。示例： `python PatchManager.register_patch_module("torch_npu.some_component.some_patches")` 组件自己的 patch 文件中仍然使用 group 注册： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("some_component") def apply_some_component_patch(): ...` 使用方式： `text 1. 组件在自己的目录中维护 patch 文件； 2. 通过 register_patch_module 注册该 patch module； 3. module 被导入后，内部 patch 自动注册到 PatchManager； 4. 后续仍由 PatchManager 统一排序和执行。` 适用场景： `text 组件有独立维护边界； patch 逻辑不适合放到中心化 patches 目录；后续组件可能独立演进、迁移或删除。` --- ### 场景三：按 group 执行 patch，用于测试或后续按需使能 `PatchManager` 支持按 group 执行 patch。当前默认初始化路径仍执行全部注册 patch，后续也可按需使能。示例： `python PatchManager.apply_registered_patches("distributed")` 使用方式： `text 1. 指定需要执行的 patch group； 2. PatchManager 只执行该 group 下已注册的 patch； 3. 已执行过的 patch 不会重复执行； 4. 可用于单独验证某一类 patch 的行为。` 适用场景： `text 只验证 distributed patch；只执行 profiler patch；排查某一类 patch 对初始化流程的影响；后续通过环境变量控制某个 patch group 是否启用。` 如果需要调整 patch group 顺序，也可以使用： `python PatchManager.set_patch_order([ "monkey", "api", "distributed", ])` 适用场景： `text 测试 patch 顺序；排查 patch 依赖问题；特殊构建或实验场景调整 patch 执行顺序。` # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】新增 `TestTorchNpuBootstrap` 初始化专项测试，覆盖以下场景： 1. `test_01_import_order_compatibility` 验证 `import torch_npu`、`import torch; import torch_npu`、`import torch_npu; import torch`、重复 `import torch_npu` 等不同导入顺序保持兼容。 2. `test_02_import_state_snapshot` 验证 `import torch_npu` 后的初始化状态，包括 `torch.npu` 注册、`Tensor/Module.npu` 方法生成、`_C` child submodules 准备、旧版初始化副作用模块加载、非预期模块不 eager import、顶层关键属性可访问等。 3. `test_03_public_exports_snapshot` 验证顶层 public API 导出行为，包括 lazy Python APIs、`torch.ops.npu` public ops、deprecated `torch.<op>` alias、dtype symbols 等导出保持兼容。 4. `test_04_framework_registration_snapshot` 验证框架集成注册行为，包括 Dynamo NPU device interface、Dynamo backend、Inductor lightweight device op override、distributed backend、RPC backend 等注册保持生效。 5. `test_05_runtime_lazy_init_semantics` 验证 import 阶段不触发 NPU runtime lazy init，查询类 API 不触发完整 runtime 初始化，真实 runtime API 和显式 `torch_npu.npu.init()` 能正常触发 lazy init。 6. `test_06_component_behavior_snapshot` 验证关键组件行为保持兼容，包括 `patch_getenv` 生效、ASD detector 兼容 API、AFD 通过 `torch_npu._afd` 暴露、`torch_npu._C._afd` 不暴露、AFD ops 可访问等。 7. `test_07_distributed_patch_behavior` 验证 distributed patch 行为保持兼容，包括 distributed 内部函数替换、public API alias、rendezvous/launcher patch、FSDP 相关 patch 等。新增测试用例本地验证通过。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35338	1 个月前
_afd_ops.py	refactor for torch_npu init module. Co-authored-by: bellatan<tanmei2@huawei.com> # message auto-generated for no-merge-commit merge: !35338 merge torch_npu_init_refactor into master refactor for torch_npu init module. Created-by: bellatan Commit-by: bellatan Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】本 PR 对 `torch_npu` 初始化链路进行重构，将原先集中在 `torch_npu/__init__.py` 中的初始化逻辑拆分到 `_init` 目录下的多个职责模块中，形成“顶层编排 + 子模块分阶段执行 + 内部能力统一收口”的结构。重构后，`torch_npu/__init__.py` 不再承载大量具体业务初始化细节，只负责固定初始化时序。各类具体能力分别由 `_check_device_conflict`、`_load_core_modules`、`_register_components`、`_apply_patches`、`_enable_optional_features`、`_initialize_runtime_lifecycle` 等内部函数承接。 ## 一、核心修改 ### 1. 重构 `torch_npu/__init__.py` 顶层初始化入口重构后的初始化流程如下： `python def _initialize(): _check_device_conflict() _load_core_modules() _register_components() _apply_patches() _enable_optional_features() _initialize_runtime_lifecycle()` 顶层入口主要负责： 1. 维护 `__all__`； 2. 在 `import torch` 前关闭 `TORCH_DEVICE_BACKEND_AUTOLOAD`，避免 PyTorch 后端自动加载导致循环依赖； 3. 提前导入 `torch_npu.utils.patch_getenv`，用于捕获初始化阶段的环境变量访问； 4. 按固定顺序调用各初始化阶段入口； 5. 保留 `_autoload()` 作为 PyTorch 后端自动加载入口，用于恢复 `TORCH_DEVICE_BACKEND_AUTOLOAD`。 --- ### 2. 新增 `_init` 目录：目录结构如下： `text torch_npu/_init/ __init__.py common/ warning_utils.py core/ _exports.py module_loader.py optional_features.py runtime_lifecycle.py patches/ __init__.py api_patches.py asd_patches.py distributed_patches.py dynamo_patches.py monkey_patches.py npu_patches.py patch_manager.py profiler_patches.py warning_patches.py registry/ __init__.py backend.py distributed.py dynamo.py registry_manager.py` --- ### 3. 通过 `_check_device_conflict()` 处理前置设备冲突检查 `_check_device_conflict()`：负责最早期的设备冲突检查，避免 NPU 与其他 accelerator 同时启用。该接口属于初始化内部逻辑，不作为 public API 暴露。 --- ### 4. 通过 `_load_core_modules()` 统一管理核心模块加载、注册副作用和顶层 API 导出 `_load_core_modules()` 将原先散落在 `torch_npu/__init__.py` 中的模块导入、底层 `_C` 子模块准备、基础 runtime 支撑模块初始化、导入即注册副作用以及顶层 API 导出统一收口。该阶段主要负责： 1. 加载 `torch_npu` 初始化所需的核心模块； 2. 统一准备 `_C` child submodules； 3. 初始化 logging、profiler、distributed 等基础组件； 4. 在 `_C` 准备完成后进行 `torch_npu.npu` 导入检查； 5. 加载需要通过 import 触发注册副作用的 Python 模块； 6. 导出 `torch_npu` 顶层 public API。具体包括： * `_C` 子模块初始化：统一创建并注册 `_profiler`、`_distributed_c10d`、`_cd`、`_logging`、`_flops_count` 等 `_C` child submodules，保证业务 Python 模块只消费这些子模块，不再各自创建。 * `torch_npu.npu` 导入检查：在 `_C` 子模块完成准备后再检查 `torch_npu.npu` 导入状态，既保留对底层依赖缺失的友好报错，又避免 `_C` 未就绪时提前 import `torch_npu.npu` 导致循环导入。 * 导入副作用模块加载：统一加载需要通过 import 触发注册副作用的模块，例如 aclnn、optim、afd、custom ops、op_plugin、meta registrations 等，避免注册类副作用散落在初始化流程中。 * 顶层 API 导出：通过 `export_all` 将 `torch_npu` 顶层公开 API 统一导出到 `globals()` 和 `__all__` 中，保证 public API 行为与旧版兼容。 * lazy Python API：对 `HiFloat8Tensor`、`erase_stream`、`matmul_checksum` 等接口采用 lazy export，保证接口可见但不在 import 阶段立即加载对应模块，减少循环导入风险。 * NPU custom ops：将 `torch.ops.npu` 下的公开算子导出到 `torch_npu` 顶层，并保留 `torch.<op>` deprecated wrapper。 * dtype symbols：将 `_C._cd.DType` 中的 dtype 符号导出到 `torch_npu` 顶层。 --- ### 5. 通过 `_register_components()` 统一管理框架集成注册 `_register_components()` 负责 backend 和 framework integration 注册，将原先散落在顶层入口中的 NPU backend、distributed、Dynamo、RPC、Inductor 等注册逻辑统一收口。通过该阶段统一收口后，框架集成注册逻辑不再散落在顶层 `__init__.py` 中，后续新增集成能力时可直接在 registry 目录下维护。该阶段主要负责： * NPU backend 注册：将 PyTorch PrivateUse1 backend 映射为 NPU，并注册 `torch.npu` 设备模块和相关方法。 * distributed backend 注册：注册 HCCL、LCCL backend，保证 NPU distributed 能力可用。 * Dynamo 注册：注册 Dynamo backend、NPU device interface 和 trace rules，保证 NPU 能接入 Dynamo 编译链路。 * RPC 注册：注册 NPU RPC backend，保证 RPC 场景下 NPU backend 可用。 * Inductor lightweight override 注册：只注册轻量级 NPU device op override，避免 import 阶段提前加载 heavy module。 * 默认 gradient device type 配置：保持 checkpoint 等场景下默认设备类型与旧行为兼容。 --- ### 6. 通过 `_apply_patches()` 统一管理 patch 注册与执行引入集中式 patch 管理机制，统一收口原先散落在初始化入口中的 patch 逻辑。顶层入口 `_apply_patches()` 负责触发 patch 发现、注册和执行，具体由 `PatchManager` 承接。`_apply_patches()` 主要完成以下工作： 1. patch 分组注册：各组件 patch 按 group 注册，例如 monkey、api、distributed、dynamo、profiler、npu、warning、asd 等。 2. 内置 patch 自动发现：`PatchManager` 会自动扫描 `_init/patches` 下符合命名规则的 patch 模块。模块被导入后，内部 patch 会完成注册。 3. 固定 patch 执行顺序：patch group 按默认顺序执行，避免 import 顺序变化导致 patch 行为漂移。 4. 支持自定义 patch 顺序：`PatchManager` 支持调整 patch group 执行顺序，便于测试或特殊场景扩展。 5. 异常钩子统一处理：全局异常钩子由 `PatchManager.run()` 统一处理，便于初始化失败和运行时异常场景的集中管理。 --- ### 7. 通过 `_enable_optional_features()` 统一管理可选运行时能力将 sanitizer、交互式模式配置、`transfer_to_npu` 等可选能力统一收口到 `_enable_optional_features()`，避免可选逻辑散落在顶层初始化入口。该阶段主要包括： `python _enable_sanitizer_if_needed() _configure_interactive_mode() _enable_transfer_to_npu_if_needed()` 具体说明： * sanitizer：仅在用户显式配置 `TORCH_NPU_SANITIZER` 时启用； * interactive mode：在交互式命令行环境中自动设置相关运行配置，并给出 warning 提示； * transfer_to_npu：通过 `TORCH_TRANSFER_TO_NPU` 控制是否启用，对非法配置进行显式报错。 --- ### 8. 通过 `_initialize_runtime_lifecycle()` 统一管理 runtime 生命周期 `_initialize_runtime_lifecycle()` 专门负责最终 C++ extension 初始化屏障和进程退出阶段的 shutdown hook 注册。该阶段主要包括： * extension finalize：调用 `torch_npu._C._initExtension()` 完成最终 C++ extension 绑定。该阶段放在核心模块加载、框架注册、API 导出和 patch 执行之后，保证 Python 侧初始化准备完成后再进入最终 extension barrier。 * shutdown hook 注册：负责注册进程退出阶段的 NPU 资源清理逻辑，包括设备同步、distributed 资源析构、异常处理和其他 runtime 清理流程。 --- ## 三、重构目的和收益本次重构的目标是把 `torch_npu` 初始化从“单文件集中式副作用堆叠”调整为“阶段化、组件化、可维护”的初始化框架。主要收益包括： 1. 顶层入口更清晰 `torch_npu/__init__.py` 只保留初始化编排，不再堆叠大量具体 import、注册、patch 和 shutdown 逻辑。 2. 初始化顺序更稳定 `_C` 子模块和基础 runtime 支撑能力统一由 `_load_core_modules` 准备，降低循环导入和 `_C` 未就绪时提前访问的风险。 3. 组件职责更清楚模块加载、框架注册、API 导出、patch、可选功能、runtime 生命周期分别由不同接口承接。 4. patch 更易维护各组件 patch 可以在自己的文件中维护，由 `PatchManager` 自动发现和统一执行，减少顶层冲突。 5. 支持后续扩展新增初始化能力时，只需放到对应处理的接口或 patch group 中，不需要继续膨胀 `__init__.py`。 6. 便于问题定位初始化链路被拆成明确阶段，出现问题时可以快速判断是模块加载、注册、导出、patch、optional feature 还是 runtime lifecycle 阶段异常。 --- ## 四、兼容性说明本次重构保持以下兼容性： 1. `import torch_npu` 行为保持兼容； 2. 顶层公开 API 保持兼容； 3. `__version__` 仍从 `torch_npu.version` 导出。 --- ## 五、PatchManager 机制说明本 PR 引入 `PatchManager`，用于统一管理 `torch_npu` 初始化阶段的 patch 注册与执行。原先 patch 逻辑集中在 `torch_npu/__init__.py` 中，和初始化流程、模块导入、框架注册逻辑混在一起，导致顶层文件过重，也不利于各组件独立维护。本次重构后，patch 逻辑从顶层入口中解耦，由 `_apply_patches()` 作为顶层入口触发执行，具体注册、发现、排序、幂等保护由 `PatchManager` 管理。 `PatchManager` 主要支持以下能力： 1. patch 按 group 分组注册； 2. 内置 patch 模块自动发现； 3. patch 按固定顺序执行； 4. patch 执行具备幂等保护； 5. 支持组件自行维护 patch module； 6. 支持按 group 执行，为后续按需使能 patch 打基础； 7. 支持自定义 patch 顺序，便于测试和问题定位。整体机制如下： `text 组件 patch 文件自注册 ↓ PatchManager 自动发现/加载 ↓ 按 group 统一管理 ↓ 按固定顺序执行 ↓ 幂等保护，避免重复 patch` --- ### 场景一：新增 torch_npu 内置 patch 如果新增的是 `torch_npu` 内置 patch，例如 distributed patch、profiler patch、NPU API patch、warning patch、ASD patch 等，可以直接放到：`torch_npu/_init/patches/` 目录下，并按 group 注册。示例： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("profiler") def apply_profiler_patch(): ...` 使用方式： `text 1. 在 _init/patches 下新增或修改对应 *_patches.py 文件； 2. 在文件中通过 @PatchManager.register_patch(group) 注册 patch； 3. import torch_npu 时，由 _apply_patches() 统一触发； 4. PatchManager 自动发现并按 group 顺序执行。` --- ### 场景二：组件自行维护 patch module 如果某个组件自己的目录下新加了patch 文件，通过 patch module 注册机制接入。示例： `python PatchManager.register_patch_module("torch_npu.some_component.some_patches")` 组件自己的 patch 文件中仍然使用 group 注册： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("some_component") def apply_some_component_patch(): ...` 使用方式： `text 1. 组件在自己的目录中维护 patch 文件； 2. 通过 register_patch_module 注册该 patch module； 3. module 被导入后，内部 patch 自动注册到 PatchManager； 4. 后续仍由 PatchManager 统一排序和执行。` 适用场景： `text 组件有独立维护边界； patch 逻辑不适合放到中心化 patches 目录；后续组件可能独立演进、迁移或删除。` --- ### 场景三：按 group 执行 patch，用于测试或后续按需使能 `PatchManager` 支持按 group 执行 patch。当前默认初始化路径仍执行全部注册 patch，后续也可按需使能。示例： `python PatchManager.apply_registered_patches("distributed")` 使用方式： `text 1. 指定需要执行的 patch group； 2. PatchManager 只执行该 group 下已注册的 patch； 3. 已执行过的 patch 不会重复执行； 4. 可用于单独验证某一类 patch 的行为。` 适用场景： `text 只验证 distributed patch；只执行 profiler patch；排查某一类 patch 对初始化流程的影响；后续通过环境变量控制某个 patch group 是否启用。` 如果需要调整 patch group 顺序，也可以使用： `python PatchManager.set_patch_order([ "monkey", "api", "distributed", ])` 适用场景： `text 测试 patch 顺序；排查 patch 依赖问题；特殊构建或实验场景调整 patch 执行顺序。` # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】新增 `TestTorchNpuBootstrap` 初始化专项测试，覆盖以下场景： 1. `test_01_import_order_compatibility` 验证 `import torch_npu`、`import torch; import torch_npu`、`import torch_npu; import torch`、重复 `import torch_npu` 等不同导入顺序保持兼容。 2. `test_02_import_state_snapshot` 验证 `import torch_npu` 后的初始化状态，包括 `torch.npu` 注册、`Tensor/Module.npu` 方法生成、`_C` child submodules 准备、旧版初始化副作用模块加载、非预期模块不 eager import、顶层关键属性可访问等。 3. `test_03_public_exports_snapshot` 验证顶层 public API 导出行为，包括 lazy Python APIs、`torch.ops.npu` public ops、deprecated `torch.<op>` alias、dtype symbols 等导出保持兼容。 4. `test_04_framework_registration_snapshot` 验证框架集成注册行为，包括 Dynamo NPU device interface、Dynamo backend、Inductor lightweight device op override、distributed backend、RPC backend 等注册保持生效。 5. `test_05_runtime_lazy_init_semantics` 验证 import 阶段不触发 NPU runtime lazy init，查询类 API 不触发完整 runtime 初始化，真实 runtime API 和显式 `torch_npu.npu.init()` 能正常触发 lazy init。 6. `test_06_component_behavior_snapshot` 验证关键组件行为保持兼容，包括 `patch_getenv` 生效、ASD detector 兼容 API、AFD 通过 `torch_npu._afd` 暴露、`torch_npu._C._afd` 不暴露、AFD ops 可访问等。 7. `test_07_distributed_patch_behavior` 验证 distributed patch 行为保持兼容，包括 distributed 内部函数替换、public API alias、rendezvous/launcher patch、FSDP 相关 patch 等。新增测试用例本地验证通过。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35338	1 个月前
_asd_detector.py	!17124 silentCheckV3 Merge pull request !17124 from 王超/master_checkv3	1 年前
_dynamo.py	fix: preserve NPU stream/event python_type for dynamo tracing Co-authored-by: stevenaw0<huangguijun@huawei.com> # message auto-generated for no-merge-commit merge: !39438 merge codex/cherry-pick-172a50f69-master-20260627 into master fix: preserve NPU stream/event python_type for dynamo tracing Created-by: stevenaw0 Commit-by: stevenaw0 Merged-by: ascend-robot Description: # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新关联 issue: https://gitcode.com/Ascend/pytorch/issues/2414 原始 PR: https://gitcode.com/Ascend/pytorch/merge_requests/39325 # 【修改方案】 1. 将 Dynamo 中针对 stream/event 的 python_type 处理从仅 Event 扩展到 Stream 和 Event。 2. 返回运行时真实的后端类型，避免 NPU stream/event 在 trace 过程中退化为 torch.Stream/torch.Event。 3. 保持 master 上已有的 _dynamo 其他后续改动，仅合入该修复本身。 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】 1. 基于 origin/master 拉取独立分支并 cherry-pick 目标提交。 2. 手动解决 torch_npu/utils/_dynamo.py 冲突，确认 PR 仅包含该文件预期差异。 3. 推送到 fork 并触发 CI 验证。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!39438	3 天前
_dynamo_device.py	refactor for torch_npu init module. Co-authored-by: bellatan<tanmei2@huawei.com> # message auto-generated for no-merge-commit merge: !35338 merge torch_npu_init_refactor into master refactor for torch_npu init module. Created-by: bellatan Commit-by: bellatan Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】本 PR 对 `torch_npu` 初始化链路进行重构，将原先集中在 `torch_npu/__init__.py` 中的初始化逻辑拆分到 `_init` 目录下的多个职责模块中，形成“顶层编排 + 子模块分阶段执行 + 内部能力统一收口”的结构。重构后，`torch_npu/__init__.py` 不再承载大量具体业务初始化细节，只负责固定初始化时序。各类具体能力分别由 `_check_device_conflict`、`_load_core_modules`、`_register_components`、`_apply_patches`、`_enable_optional_features`、`_initialize_runtime_lifecycle` 等内部函数承接。 ## 一、核心修改 ### 1. 重构 `torch_npu/__init__.py` 顶层初始化入口重构后的初始化流程如下： `python def _initialize(): _check_device_conflict() _load_core_modules() _register_components() _apply_patches() _enable_optional_features() _initialize_runtime_lifecycle()` 顶层入口主要负责： 1. 维护 `__all__`； 2. 在 `import torch` 前关闭 `TORCH_DEVICE_BACKEND_AUTOLOAD`，避免 PyTorch 后端自动加载导致循环依赖； 3. 提前导入 `torch_npu.utils.patch_getenv`，用于捕获初始化阶段的环境变量访问； 4. 按固定顺序调用各初始化阶段入口； 5. 保留 `_autoload()` 作为 PyTorch 后端自动加载入口，用于恢复 `TORCH_DEVICE_BACKEND_AUTOLOAD`。 --- ### 2. 新增 `_init` 目录：目录结构如下： `text torch_npu/_init/ __init__.py common/ warning_utils.py core/ _exports.py module_loader.py optional_features.py runtime_lifecycle.py patches/ __init__.py api_patches.py asd_patches.py distributed_patches.py dynamo_patches.py monkey_patches.py npu_patches.py patch_manager.py profiler_patches.py warning_patches.py registry/ __init__.py backend.py distributed.py dynamo.py registry_manager.py` --- ### 3. 通过 `_check_device_conflict()` 处理前置设备冲突检查 `_check_device_conflict()`：负责最早期的设备冲突检查，避免 NPU 与其他 accelerator 同时启用。该接口属于初始化内部逻辑，不作为 public API 暴露。 --- ### 4. 通过 `_load_core_modules()` 统一管理核心模块加载、注册副作用和顶层 API 导出 `_load_core_modules()` 将原先散落在 `torch_npu/__init__.py` 中的模块导入、底层 `_C` 子模块准备、基础 runtime 支撑模块初始化、导入即注册副作用以及顶层 API 导出统一收口。该阶段主要负责： 1. 加载 `torch_npu` 初始化所需的核心模块； 2. 统一准备 `_C` child submodules； 3. 初始化 logging、profiler、distributed 等基础组件； 4. 在 `_C` 准备完成后进行 `torch_npu.npu` 导入检查； 5. 加载需要通过 import 触发注册副作用的 Python 模块； 6. 导出 `torch_npu` 顶层 public API。具体包括： * `_C` 子模块初始化：统一创建并注册 `_profiler`、`_distributed_c10d`、`_cd`、`_logging`、`_flops_count` 等 `_C` child submodules，保证业务 Python 模块只消费这些子模块，不再各自创建。 * `torch_npu.npu` 导入检查：在 `_C` 子模块完成准备后再检查 `torch_npu.npu` 导入状态，既保留对底层依赖缺失的友好报错，又避免 `_C` 未就绪时提前 import `torch_npu.npu` 导致循环导入。 * 导入副作用模块加载：统一加载需要通过 import 触发注册副作用的模块，例如 aclnn、optim、afd、custom ops、op_plugin、meta registrations 等，避免注册类副作用散落在初始化流程中。 * 顶层 API 导出：通过 `export_all` 将 `torch_npu` 顶层公开 API 统一导出到 `globals()` 和 `__all__` 中，保证 public API 行为与旧版兼容。 * lazy Python API：对 `HiFloat8Tensor`、`erase_stream`、`matmul_checksum` 等接口采用 lazy export，保证接口可见但不在 import 阶段立即加载对应模块，减少循环导入风险。 * NPU custom ops：将 `torch.ops.npu` 下的公开算子导出到 `torch_npu` 顶层，并保留 `torch.<op>` deprecated wrapper。 * dtype symbols：将 `_C._cd.DType` 中的 dtype 符号导出到 `torch_npu` 顶层。 --- ### 5. 通过 `_register_components()` 统一管理框架集成注册 `_register_components()` 负责 backend 和 framework integration 注册，将原先散落在顶层入口中的 NPU backend、distributed、Dynamo、RPC、Inductor 等注册逻辑统一收口。通过该阶段统一收口后，框架集成注册逻辑不再散落在顶层 `__init__.py` 中，后续新增集成能力时可直接在 registry 目录下维护。该阶段主要负责： * NPU backend 注册：将 PyTorch PrivateUse1 backend 映射为 NPU，并注册 `torch.npu` 设备模块和相关方法。 * distributed backend 注册：注册 HCCL、LCCL backend，保证 NPU distributed 能力可用。 * Dynamo 注册：注册 Dynamo backend、NPU device interface 和 trace rules，保证 NPU 能接入 Dynamo 编译链路。 * RPC 注册：注册 NPU RPC backend，保证 RPC 场景下 NPU backend 可用。 * Inductor lightweight override 注册：只注册轻量级 NPU device op override，避免 import 阶段提前加载 heavy module。 * 默认 gradient device type 配置：保持 checkpoint 等场景下默认设备类型与旧行为兼容。 --- ### 6. 通过 `_apply_patches()` 统一管理 patch 注册与执行引入集中式 patch 管理机制，统一收口原先散落在初始化入口中的 patch 逻辑。顶层入口 `_apply_patches()` 负责触发 patch 发现、注册和执行，具体由 `PatchManager` 承接。`_apply_patches()` 主要完成以下工作： 1. patch 分组注册：各组件 patch 按 group 注册，例如 monkey、api、distributed、dynamo、profiler、npu、warning、asd 等。 2. 内置 patch 自动发现：`PatchManager` 会自动扫描 `_init/patches` 下符合命名规则的 patch 模块。模块被导入后，内部 patch 会完成注册。 3. 固定 patch 执行顺序：patch group 按默认顺序执行，避免 import 顺序变化导致 patch 行为漂移。 4. 支持自定义 patch 顺序：`PatchManager` 支持调整 patch group 执行顺序，便于测试或特殊场景扩展。 5. 异常钩子统一处理：全局异常钩子由 `PatchManager.run()` 统一处理，便于初始化失败和运行时异常场景的集中管理。 --- ### 7. 通过 `_enable_optional_features()` 统一管理可选运行时能力将 sanitizer、交互式模式配置、`transfer_to_npu` 等可选能力统一收口到 `_enable_optional_features()`，避免可选逻辑散落在顶层初始化入口。该阶段主要包括： `python _enable_sanitizer_if_needed() _configure_interactive_mode() _enable_transfer_to_npu_if_needed()` 具体说明： * sanitizer：仅在用户显式配置 `TORCH_NPU_SANITIZER` 时启用； * interactive mode：在交互式命令行环境中自动设置相关运行配置，并给出 warning 提示； * transfer_to_npu：通过 `TORCH_TRANSFER_TO_NPU` 控制是否启用，对非法配置进行显式报错。 --- ### 8. 通过 `_initialize_runtime_lifecycle()` 统一管理 runtime 生命周期 `_initialize_runtime_lifecycle()` 专门负责最终 C++ extension 初始化屏障和进程退出阶段的 shutdown hook 注册。该阶段主要包括： * extension finalize：调用 `torch_npu._C._initExtension()` 完成最终 C++ extension 绑定。该阶段放在核心模块加载、框架注册、API 导出和 patch 执行之后，保证 Python 侧初始化准备完成后再进入最终 extension barrier。 * shutdown hook 注册：负责注册进程退出阶段的 NPU 资源清理逻辑，包括设备同步、distributed 资源析构、异常处理和其他 runtime 清理流程。 --- ## 三、重构目的和收益本次重构的目标是把 `torch_npu` 初始化从“单文件集中式副作用堆叠”调整为“阶段化、组件化、可维护”的初始化框架。主要收益包括： 1. 顶层入口更清晰 `torch_npu/__init__.py` 只保留初始化编排，不再堆叠大量具体 import、注册、patch 和 shutdown 逻辑。 2. 初始化顺序更稳定 `_C` 子模块和基础 runtime 支撑能力统一由 `_load_core_modules` 准备，降低循环导入和 `_C` 未就绪时提前访问的风险。 3. 组件职责更清楚模块加载、框架注册、API 导出、patch、可选功能、runtime 生命周期分别由不同接口承接。 4. patch 更易维护各组件 patch 可以在自己的文件中维护，由 `PatchManager` 自动发现和统一执行，减少顶层冲突。 5. 支持后续扩展新增初始化能力时，只需放到对应处理的接口或 patch group 中，不需要继续膨胀 `__init__.py`。 6. 便于问题定位初始化链路被拆成明确阶段，出现问题时可以快速判断是模块加载、注册、导出、patch、optional feature 还是 runtime lifecycle 阶段异常。 --- ## 四、兼容性说明本次重构保持以下兼容性： 1. `import torch_npu` 行为保持兼容； 2. 顶层公开 API 保持兼容； 3. `__version__` 仍从 `torch_npu.version` 导出。 --- ## 五、PatchManager 机制说明本 PR 引入 `PatchManager`，用于统一管理 `torch_npu` 初始化阶段的 patch 注册与执行。原先 patch 逻辑集中在 `torch_npu/__init__.py` 中，和初始化流程、模块导入、框架注册逻辑混在一起，导致顶层文件过重，也不利于各组件独立维护。本次重构后，patch 逻辑从顶层入口中解耦，由 `_apply_patches()` 作为顶层入口触发执行，具体注册、发现、排序、幂等保护由 `PatchManager` 管理。 `PatchManager` 主要支持以下能力： 1. patch 按 group 分组注册； 2. 内置 patch 模块自动发现； 3. patch 按固定顺序执行； 4. patch 执行具备幂等保护； 5. 支持组件自行维护 patch module； 6. 支持按 group 执行，为后续按需使能 patch 打基础； 7. 支持自定义 patch 顺序，便于测试和问题定位。整体机制如下： `text 组件 patch 文件自注册 ↓ PatchManager 自动发现/加载 ↓ 按 group 统一管理 ↓ 按固定顺序执行 ↓ 幂等保护，避免重复 patch` --- ### 场景一：新增 torch_npu 内置 patch 如果新增的是 `torch_npu` 内置 patch，例如 distributed patch、profiler patch、NPU API patch、warning patch、ASD patch 等，可以直接放到：`torch_npu/_init/patches/` 目录下，并按 group 注册。示例： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("profiler") def apply_profiler_patch(): ...` 使用方式： `text 1. 在 _init/patches 下新增或修改对应 *_patches.py 文件； 2. 在文件中通过 @PatchManager.register_patch(group) 注册 patch； 3. import torch_npu 时，由 _apply_patches() 统一触发； 4. PatchManager 自动发现并按 group 顺序执行。` --- ### 场景二：组件自行维护 patch module 如果某个组件自己的目录下新加了patch 文件，通过 patch module 注册机制接入。示例： `python PatchManager.register_patch_module("torch_npu.some_component.some_patches")` 组件自己的 patch 文件中仍然使用 group 注册： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("some_component") def apply_some_component_patch(): ...` 使用方式： `text 1. 组件在自己的目录中维护 patch 文件； 2. 通过 register_patch_module 注册该 patch module； 3. module 被导入后，内部 patch 自动注册到 PatchManager； 4. 后续仍由 PatchManager 统一排序和执行。` 适用场景： `text 组件有独立维护边界； patch 逻辑不适合放到中心化 patches 目录；后续组件可能独立演进、迁移或删除。` --- ### 场景三：按 group 执行 patch，用于测试或后续按需使能 `PatchManager` 支持按 group 执行 patch。当前默认初始化路径仍执行全部注册 patch，后续也可按需使能。示例： `python PatchManager.apply_registered_patches("distributed")` 使用方式： `text 1. 指定需要执行的 patch group； 2. PatchManager 只执行该 group 下已注册的 patch； 3. 已执行过的 patch 不会重复执行； 4. 可用于单独验证某一类 patch 的行为。` 适用场景： `text 只验证 distributed patch；只执行 profiler patch；排查某一类 patch 对初始化流程的影响；后续通过环境变量控制某个 patch group 是否启用。` 如果需要调整 patch group 顺序，也可以使用： `python PatchManager.set_patch_order([ "monkey", "api", "distributed", ])` 适用场景： `text 测试 patch 顺序；排查 patch 依赖问题；特殊构建或实验场景调整 patch 执行顺序。` # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】新增 `TestTorchNpuBootstrap` 初始化专项测试，覆盖以下场景： 1. `test_01_import_order_compatibility` 验证 `import torch_npu`、`import torch; import torch_npu`、`import torch_npu; import torch`、重复 `import torch_npu` 等不同导入顺序保持兼容。 2. `test_02_import_state_snapshot` 验证 `import torch_npu` 后的初始化状态，包括 `torch.npu` 注册、`Tensor/Module.npu` 方法生成、`_C` child submodules 准备、旧版初始化副作用模块加载、非预期模块不 eager import、顶层关键属性可访问等。 3. `test_03_public_exports_snapshot` 验证顶层 public API 导出行为，包括 lazy Python APIs、`torch.ops.npu` public ops、deprecated `torch.<op>` alias、dtype symbols 等导出保持兼容。 4. `test_04_framework_registration_snapshot` 验证框架集成注册行为，包括 Dynamo NPU device interface、Dynamo backend、Inductor lightweight device op override、distributed backend、RPC backend 等注册保持生效。 5. `test_05_runtime_lazy_init_semantics` 验证 import 阶段不触发 NPU runtime lazy init，查询类 API 不触发完整 runtime 初始化，真实 runtime API 和显式 `torch_npu.npu.init()` 能正常触发 lazy init。 6. `test_06_component_behavior_snapshot` 验证关键组件行为保持兼容，包括 `patch_getenv` 生效、ASD detector 兼容 API、AFD 通过 `torch_npu._afd` 暴露、`torch_npu._C._afd` 不暴露、AFD ops 可访问等。 7. `test_07_distributed_patch_behavior` 验证 distributed patch 行为保持兼容，包括 distributed 内部函数替换、public API alias、rendezvous/launcher patch、FSDP 相关 patch 等。新增测试用例本地验证通过。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35338	1 个月前
_error_code.py	Suppress error printing for the pta in the python interactive environment. Co-authored-by: zhujiaxing<zhujiaxing2@huawei.com> # message auto-generated for no-merge-commit merge: !30279 merge master into master Suppress error printing for the pta in the python interactive environment. Created-by: zhujiaxing1029 Commit-by: zhujiaxing Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? /kind feature What does this PR do / why do we need it: Suppress error printing for the pta in the python interactive environment. Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!30279	4 个月前
_graph_tree.py	feat: Add ACLGraph update plans Co-authored-by: luochao60<luochao60@huawei.com> # message auto-generated for no-merge-commit merge: !38052 merge Pynative_refactor_aclgraph_update_20260519_master into master feat: Add ACLGraph update plans Created-by: luochao60 Commit-by: luochao60 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > (如有)请关联需求文档/issue链接 > 关联 issue: #2338 （https://gitcode.com/Ascend/pytorch/issues/2338） - [ ] 需求 - [x] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列 > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） 1. 新增 `torch_npu._inductor.aclgraph_update_plan` 模块，在 Inductor codegen 阶段生成 ACLGraph update plan，并在运行期根据 callable 属性解析 new_inputs 到 FA 类算子 actual sequence 参数的映射。 2. 在 NPU Python wrapper、MLIR/DVM wrapper、graph partition 子图 wrapper 中挂载 plan，支持 graph partition 开关下分别写入 `call` 或 `partition_x` 函数属性。 3. 在 `_graph_tree` record/replay 路径消费 update plan，record 后校验 plan 与真实 capture record 的顺序、算子名和可更新 key，replay 前解析为 CPU update input。 4. 将 IFA/IFA v2/FA3 等 npugraph handler 的 actual sequence 更新点改为 `UPDATE_SPECS` 声明式描述，并由 base handler 统一更新 args/kwargs。 5. 补充 plan 构建、plan 解析、handler 注册、wrapper emit、npugraphify callable 属性保持等单元测试，替换旧的集中测试文件。 # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写"不涉及" 不涉及对外资料变更。 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写"不涉及" 不涉及客户面可见 API 变更；新增 `torch_npu._inductor.aclgraph_update_plan` 为内部编译与 ACLGraph 运行期协同模块。 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤 > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图已补充并验证以下单测： 1. `test/npu/test_aclgraph_update_plan.py` 覆盖 plan 构建、输入映射、常量解析、非法 plan 校验。 2. `test/npu/test_npugraph_handler.py` 覆盖 IFA/IFA v2 handler 的 `UPDATE_SPECS` 注册。 3. `test/_inductor/test_aclgraph_update_plan_compile.py` 覆盖 wrapper/graph partition emit、MLIR/DVM wrapper、npugraphify callable 属性保持等非设备单测。 4. 多版本迁移后已在 v2.7.1、v2.9.0、v2.10.0、v2.11.0、v2.12.0、master 分支通过静态检查和不涉及设备的单测验证。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!38052	15 天前
_inductor.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
_module.py	rollback 330, delete main_thread handle and bind main by autograd thread Co-authored-by: zhaoyu65<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !38882 merge master-pt_data_pin into master rollback 330, delete main_thread handle and bind main by autograd thread Created-by: zhaoyu65 Commit-by: zhaoyu65 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [x] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新当前PTA代码绑核策略导致HRnet细粒度绑核性能劣化。 [#2436](https://gitcode.com/Ascend/pytorch/issues/2436) # 【修改方案】 1、绑核逻辑回退到330版本之后，只增加如下逻辑： 2、使用正则匹配，给主线程绑核的逻辑增加匹配autograd线程； 3、删除全局变量main_thread句柄，使用sched_setaffinity根据tid设置主线程；避免绑错线程。 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】验证OK # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!38882	8 天前
_npu_trace.py	add record_stream sanitizer Co-authored-by: bellatan<tanmei2@huawei.com> Co-authored-by: hb_hubin<hubin79@huawei.com> # message auto-generated for no-merge-commit merge: !34841 merge record_stream_sanitizer into master add record_stream sanitizer Created-by: bellatan Commit-by: bellatan;hb_hubin Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图本地验证 1. test/npu/test_sanitizer.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/db51597e-f6bf-4b34-8ba1-170ba8bb5bde/image.png 'image.png') 2. test/npu/test_sanitizer_record_stream.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/630b87e8-dc9c-4c9a-a2d4-932b9ad18dca/image.png 'image.png') 3. test/test_npu_sanitizer.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/ecb4d1f1-aef9-4b9b-a082-75ff16991064/image.png 'image.png') 4. test/test_sanitizer_pluggable_allocator.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/ffa87f39-c755-41fe-8176-9cb38cd73a09/image.png 'image.png') 5. ci结果 ·UT_ARM_A2_Part_01：test/test_npu_sanitizer.py，pass ![image.png](https://raw.gitcode.com/user-images/assets/7404318/d5fb5242-cb11-435d-ae2b-36960a9522f8/image.png 'image.png') ·UT_ARM_A2_Part_02：test/npu/test_sanitizer.py，pass；test/test_sanitizer_pluggable_allocator.py pass ![1778915605465.png](https://raw.gitcode.com/user-images/assets/7404318/243673b4-b5b0-4c5d-8c21-3d22f84cce82/1778915605465.png '1778915605465.png') ·UT_ARM_A2_Part_03：test/npu/test_sanitizer_record_stream.py，pass ![1778915660126.png](https://raw.gitcode.com/user-images/assets/7404318/b1e2f979-f4f7-4f24-b4b9-b1987de33677/1778915660126.png '1778915660126.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!34841	1 个月前
_optim.py	[sync] PR-38376: fix: remove the deprecated get_cann_version() in _optim.py to reduce import time Co-authored-by: wuyouqi1<wuyouqi1@h-partners.com> # message auto-generated for no-merge-commit merge: !38508 merge sync-pr38376-fix/lazy-load-optim-get-cann-version-to-master into master [sync] PR-38376: fix: remove the deprecated get_cann_version() in _optim.py to reduce import time Created-by: ascend-ds-bot Commit-by: wuyouqi1 Merged-by: ascend-robot Description: ### 1. Origin pull request: https://gitcode.com/Ascend/pytorch/merge_requests/38376 ### 2. Original pull request related issue(s): https://gitcode.com/Ascend/pytorch/issues/2370 ### 3. Original pull request related commit(s): \| Sha \| Datetime \| Message \| \|---\|---\|---\| \|[145499ed](https://gitcode.com/Ascend/pytorch/commit/145499ed5f0269813a74fa30788c4150adaae936)\|2026-06-13 11:19:22 +0800 CST\|perf: remove obsolete CANN 8.0 blacklist from _optim.py<br><br>torch_npu 2.7.1 requires CANN >= 8.2, so the CANN 8.0 blacklist<br>and cann_version check are no longer reachable. Removing them<br>eliminates the _get_cann_version() call from import path.<br><br>Co-Authored-By: Claude <noreply@anthropic.com><br>\| \|[30946b2a](https://gitcode.com/Ascend/pytorch/commit/30946b2ad16668acd04e5b73981eb0b67c2e0a63)\|2026-06-12 16:25:50 +0800 CST\|perf: simplify _optim.py to use C++ get_cann_version and remove obsolete CANN 8.0 blacklist<br><br>- Replace collect_env.get_cann_version() (os.walk over ASCEND_HOME_PATH,<br> ~250ms) with torch_npu._C._get_cann_version() (C++ impl, ~0.014ms)<br>- Remove obsolete CANN 8.0.x blacklist entries (8.0.RC1/RC2, T1~T52)<br>- Remove global state (_cann_version, _device_name) in favor of local<br> variables - no caching needed with <1ms C++ API calls<br>- Remove collect_env dependency entirely<br><br>Co-Authored-By: Claude <noreply@anthropic.com><br>\| See merge request: Ascend/pytorch!38508	16 天前
_path_manager.py	[fix] Init version in GetCANNVersion and delete unnecessary warning Co-authored-by: zhaoyu65<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !38128 merge master-warn into master [fix] Init version in GetCANNVersion and delete unnecessary warning Created-by: zhaoyu65 Commit-by: zhaoyu65 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 [#2346](https://gitcode.com/Ascend/pytorch/issues/2346) # 【修改方案】 * 核心变更： * 🔧 修复了CANN版本获取函数中的错误处理逻辑，从特定错误码检查改为通用成功状态检查 * ✅ 增强了错误日志，新增错误码输出以便调试 * 🧹 简化了Python环境收集工具，移除了路径所有者一致性检查 * 🛡️ 修复了C++结构体未初始化的潜在问题 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】验证OK 测试用例test\npu\test_cann_version.py已纳入门禁看护 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!38128	2 天前
_step.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
affinity.py	【feat】NPUAffinityController support multiple rangs of affinity cpu core Co-authored-by: zhaoyu<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !34407 merge Affinity into master 【feat】NPUAffinityController support multiple rangs of affinity cpu core Created-by: zhaoyu65 Commit-by: zhaoyu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求 [#1816](https://gitcode.com/Ascend/pytorch/issues/1816) - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 ## 1、修改内容总体本次 commit 的核心目的是让 NPUAffinityController 支持绑定多个不连续的 CPU 核范围。同时修改了lintrunner工具扫描出来的代码规范问题。主要技术变更： - 将数据结构从 `CoreIdRange {start, end}` 改为 `CoreIdList = std::set<CoreId>`，支持离散/多段 CPU 核集合，set容器符合语义，不存在重复值 - 支持解析查出来的多段CPU亲和段 - 对GetAffinityCPUInfo.cpp和NPUAffinityController.cpp重构，优化函数圏复杂度，将cpp内部调用函数使用namespace或static关键词封装， --- ## 2、各文件修改的内容和目的 \| 文件 \| 修改内容 \| 目的 \| \|------\|----------\|------\| \| NPUAffinityController.h \| 将 `CoreIdRange` 结构体替换为 `CoreIdList = std::set<CoreId>`，新增 `SetThreadAffinity(const CoreIdList)` 接口 \| 数据结构重构，支持多核集合 \| \| NPUAffinityController.cpp \| 重构核心绑定逻辑：解析配置支持 `npu0:0-1,npu0:4-9` 多段格式；新增 `formatCoreRange()` 输出函数；重构 `parseDeviceCoreRange()` 解析多段范围 \| 核心实现支持多段 CPU 核绑定 \| \| GetAffinityCPUInfo.cpp \| 将 `parseAffinityCPU()` 改为 `parseAffinityCores()`，支持逗号分隔的多段范围；重构 `GetExclusiveAffinityCPU()` 的核分配逻辑 \| DCMI 接口层适配新数据结构，避免重复初始化 \| \| GetAffinityCPUInfo.h \| 简化接口，对其他cpp文件只保留 `GetAffinityCores(int card_id)`接口 \| 接口统一 \| \| Module.cpp \| Python 绑定增加对 `PyList` 参数的解析，支持python内部接口侧传入 `[0, 1, 4, 5]` 格式的核列表 \| Python API 支持新参数类型 \| \| affinity.py \| `_set_thread_affinity()` 支持 `List[int]` 或 `List[List[int]]` 参数，如 `[[0,5], [8,10]]` \| Python 层 API 扩展 \| \| torch_npu_schema.json \| 更新签名 `Union[List[int], List[List[int]], NoneType]` \| 类型提示更新 \| \| test_affinity.py \| 新增加多段CPU核相关测试用例 \| 新增用例 \| --- ## 3、修改后的影响 ### 功能增强 - 用户可配置多段 CPU 核范围：如 `CPU_AFFINITY_CONF='1,npu0:0-3,npu0:8-15'`，同一设备可绑定不连续的核，取并集 - API 更灵活：`set_thread_affinity()` 新增接受 `[[0,5], [8,10]]` 格式参数的功能 ### 行为变化 - 环境变量 `CPU_AFFINITY_CONF` 同一设备多次指定核范围会合并（如 `npu0:0-1,npu0:4-9` 绑定核 0,1,4,5,6,7,8,9） ### 代码改进 - 新增 `formatCoreRange()` 函数统一输出格式（如 `0-3,8-15`） - 代码结构更清晰：解析函数拆分为 `parseNpuAffineMode()`、`parseLazyBindMode()`、`parseForceMode()`、`parseDeviceCoreRange()` --- # 【资料变更】在后续2.7.1分支的PR中修改 # 【接口变更】 CPU_AFFINITY_CONF环境变量和set_thread_affinity()接口变更方案已通过SEG例会评审，兼容旧版本； # 【功能验证】自测OK ![image.png](https://raw.gitcode.com/user-images/assets/7404318/d1efc099-e0c4-49e1-87ba-396be42fc56c/image.png 'image.png') 验证环境变量CPU_AFFINITY_CONF bash #!/bin/bash # 设置环境变量 export ASCEND_PROCESS_LOG_PATH=$(pwd) export ASCEND_GLOBAL_LOG_LEVEL=0 echo -e 'import torch\na=torch.tensor([1],device="npu")\nb=a+1\n' > add.py # 定义配置和期望值数组 configs=( "1,npu_affine:1,npu0:0-5" "1,npu_affine:1,npu0:0-5,npu1:6-7,npu2:8-8,npu2:10-11,npu0:12-19" "1,npu_affine:1,npu0:0-5,npu1:10-13,npu0:4-7" ) values=( "0-5" "0-5,12-19" "0-7" ) run_test() { local index=$1 local conf=$2 local expected_val=$3 export CPU_AFFINITY_CONF="$conf" # 清理旧日志，确保获取的是本次运行的日志 rm -rf debug/ # 执行测试脚本 python add.py # 检查 python 执行是否成功，可选 if [ $? -ne 0 ]; then echo "[ERROR] Index $index: python add.py failed." >> result.log return 1 fi # 提取 affinity 值 # 使用 find 避免 glob 匹配不到文件时的报错，或者保留原来的 glob 但确保目录存在 local log_file log_file=$(find debug/plog -name ".log" 2>/dev/null \| head -1) if [ -z "$log_file" ]; then echo "[ERROR] Index $index: No log file found in debug/plog/" >> result.log return 1 fi local affinity_line affinity_line=$(grep "Device 0 set acl_thread affinity to" "$log_file" 2>/dev/null \| head -1) if [ -z "$affinity_line" ]; then echo "[ERROR] Index $index: Affinity line not found in log." >> result.log return 1 fi # 提取 "affinity to" 后面的具体值 local affinity_value # sed 提取最后一个非空字段，或者根据具体日志格式调整 affinity_value=$(echo "$affinity_line" \| sed -n 's/.affinity to $[^ ]$./\1/p') # 去除可能的首尾空白字符 (trim) affinity_value=$(echo "$affinity_value" \| xargs) # 比较实际值与期望值 if [ "$affinity_value" == "$expected_val" ]; then echo "测试环境变量 CPU_AFFINITY_CONF $conf: 的结果为：SUCCESS (Actual: ${affinity_value} == Expected: ${expected_val})" else echo "测试环境变量 CPU_AFFINITY_CONF $conf: 的结果为：FAIL (Actual: ${affinity_value} != Expected: ${expected_val})" fi } # 循环遍历配置 # 使用 C 风格的 for 循环以便同时获取索引 for ((i=0; i<${#configs[@]}; i++)); do run_test "$i" "${configs[$i]}" "${values[$i]}" done echo "All tests completed." 测试结果为：所有用例都通过 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b09a86c8-ce2d-4e50-a1c0-fc8df43e65f9/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!34407	1 个月前
asd_detector.py	!16416 Change to a private interface Merge pull request !16416 from 杜金航/cherry-pick-1732779568	1 年前
collect_env.py	[fix] Init version in GetCANNVersion and delete unnecessary warning Co-authored-by: zhaoyu65<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !38128 merge master-warn into master [fix] Init version in GetCANNVersion and delete unnecessary warning Created-by: zhaoyu65 Commit-by: zhaoyu65 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 [#2346](https://gitcode.com/Ascend/pytorch/issues/2346) # 【修改方案】 * 核心变更： * 🔧 修复了CANN版本获取函数中的错误处理逻辑，从特定错误码检查改为通用成功状态检查 * ✅ 增强了错误日志，新增错误码输出以便调试 * 🧹 简化了Python环境收集工具，移除了路径所有者一致性检查 * 🛡️ 修复了C++结构体未初始化的潜在问题 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】验证OK 测试用例test\npu\test_cann_version.py已纳入门禁看护 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!38128	2 天前
collect_hccl_info.py	!13006 Fixed for the public APIs. Merge pull request !13006 from yuhaiyan/master-dev2	1 年前
combine_tensors.py	[fix] 连续性判断 Co-authored-by: l00881990<lixinyu68@huawei.com> # message auto-generated for no-merge-commit merge: !39043 merge A5-fix into master [fix] 连续性判断 Created-by: l1919_snow Commit-by: l1919_snow;l00881990 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 https://gitcode.com/Ascend/pytorch/issues/2456 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容） # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [ ] 代码注释完备，正确记录错误日志 - [ ] 代码实现进行了返回值、空指针等校验 - [ ] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [ ] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!39043	9 天前
cpp_extension.py	fix: lintrunner --all-files --take NEWLINE -a Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35539 merge code_check_lintrunner into master fix: lintrunner --all-files --take NEWLINE -a Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】文件必须以 LF 换行符结尾，不允许 CRLF（DOS 换行），执行： lintrunner --all-files --take NEWLINE -a # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35539	1 个月前
dlpack.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
flops_count.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
hif8_tensor.py	refactor for torch_npu init module. Co-authored-by: bellatan<tanmei2@huawei.com> # message auto-generated for no-merge-commit merge: !35338 merge torch_npu_init_refactor into master refactor for torch_npu init module. Created-by: bellatan Commit-by: bellatan Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】本 PR 对 `torch_npu` 初始化链路进行重构，将原先集中在 `torch_npu/__init__.py` 中的初始化逻辑拆分到 `_init` 目录下的多个职责模块中，形成“顶层编排 + 子模块分阶段执行 + 内部能力统一收口”的结构。重构后，`torch_npu/__init__.py` 不再承载大量具体业务初始化细节，只负责固定初始化时序。各类具体能力分别由 `_check_device_conflict`、`_load_core_modules`、`_register_components`、`_apply_patches`、`_enable_optional_features`、`_initialize_runtime_lifecycle` 等内部函数承接。 ## 一、核心修改 ### 1. 重构 `torch_npu/__init__.py` 顶层初始化入口重构后的初始化流程如下： `python def _initialize(): _check_device_conflict() _load_core_modules() _register_components() _apply_patches() _enable_optional_features() _initialize_runtime_lifecycle()` 顶层入口主要负责： 1. 维护 `__all__`； 2. 在 `import torch` 前关闭 `TORCH_DEVICE_BACKEND_AUTOLOAD`，避免 PyTorch 后端自动加载导致循环依赖； 3. 提前导入 `torch_npu.utils.patch_getenv`，用于捕获初始化阶段的环境变量访问； 4. 按固定顺序调用各初始化阶段入口； 5. 保留 `_autoload()` 作为 PyTorch 后端自动加载入口，用于恢复 `TORCH_DEVICE_BACKEND_AUTOLOAD`。 --- ### 2. 新增 `_init` 目录：目录结构如下： `text torch_npu/_init/ __init__.py common/ warning_utils.py core/ _exports.py module_loader.py optional_features.py runtime_lifecycle.py patches/ __init__.py api_patches.py asd_patches.py distributed_patches.py dynamo_patches.py monkey_patches.py npu_patches.py patch_manager.py profiler_patches.py warning_patches.py registry/ __init__.py backend.py distributed.py dynamo.py registry_manager.py` --- ### 3. 通过 `_check_device_conflict()` 处理前置设备冲突检查 `_check_device_conflict()`：负责最早期的设备冲突检查，避免 NPU 与其他 accelerator 同时启用。该接口属于初始化内部逻辑，不作为 public API 暴露。 --- ### 4. 通过 `_load_core_modules()` 统一管理核心模块加载、注册副作用和顶层 API 导出 `_load_core_modules()` 将原先散落在 `torch_npu/__init__.py` 中的模块导入、底层 `_C` 子模块准备、基础 runtime 支撑模块初始化、导入即注册副作用以及顶层 API 导出统一收口。该阶段主要负责： 1. 加载 `torch_npu` 初始化所需的核心模块； 2. 统一准备 `_C` child submodules； 3. 初始化 logging、profiler、distributed 等基础组件； 4. 在 `_C` 准备完成后进行 `torch_npu.npu` 导入检查； 5. 加载需要通过 import 触发注册副作用的 Python 模块； 6. 导出 `torch_npu` 顶层 public API。具体包括： * `_C` 子模块初始化：统一创建并注册 `_profiler`、`_distributed_c10d`、`_cd`、`_logging`、`_flops_count` 等 `_C` child submodules，保证业务 Python 模块只消费这些子模块，不再各自创建。 * `torch_npu.npu` 导入检查：在 `_C` 子模块完成准备后再检查 `torch_npu.npu` 导入状态，既保留对底层依赖缺失的友好报错，又避免 `_C` 未就绪时提前 import `torch_npu.npu` 导致循环导入。 * 导入副作用模块加载：统一加载需要通过 import 触发注册副作用的模块，例如 aclnn、optim、afd、custom ops、op_plugin、meta registrations 等，避免注册类副作用散落在初始化流程中。 * 顶层 API 导出：通过 `export_all` 将 `torch_npu` 顶层公开 API 统一导出到 `globals()` 和 `__all__` 中，保证 public API 行为与旧版兼容。 * lazy Python API：对 `HiFloat8Tensor`、`erase_stream`、`matmul_checksum` 等接口采用 lazy export，保证接口可见但不在 import 阶段立即加载对应模块，减少循环导入风险。 * NPU custom ops：将 `torch.ops.npu` 下的公开算子导出到 `torch_npu` 顶层，并保留 `torch.<op>` deprecated wrapper。 * dtype symbols：将 `_C._cd.DType` 中的 dtype 符号导出到 `torch_npu` 顶层。 --- ### 5. 通过 `_register_components()` 统一管理框架集成注册 `_register_components()` 负责 backend 和 framework integration 注册，将原先散落在顶层入口中的 NPU backend、distributed、Dynamo、RPC、Inductor 等注册逻辑统一收口。通过该阶段统一收口后，框架集成注册逻辑不再散落在顶层 `__init__.py` 中，后续新增集成能力时可直接在 registry 目录下维护。该阶段主要负责： * NPU backend 注册：将 PyTorch PrivateUse1 backend 映射为 NPU，并注册 `torch.npu` 设备模块和相关方法。 * distributed backend 注册：注册 HCCL、LCCL backend，保证 NPU distributed 能力可用。 * Dynamo 注册：注册 Dynamo backend、NPU device interface 和 trace rules，保证 NPU 能接入 Dynamo 编译链路。 * RPC 注册：注册 NPU RPC backend，保证 RPC 场景下 NPU backend 可用。 * Inductor lightweight override 注册：只注册轻量级 NPU device op override，避免 import 阶段提前加载 heavy module。 * 默认 gradient device type 配置：保持 checkpoint 等场景下默认设备类型与旧行为兼容。 --- ### 6. 通过 `_apply_patches()` 统一管理 patch 注册与执行引入集中式 patch 管理机制，统一收口原先散落在初始化入口中的 patch 逻辑。顶层入口 `_apply_patches()` 负责触发 patch 发现、注册和执行，具体由 `PatchManager` 承接。`_apply_patches()` 主要完成以下工作： 1. patch 分组注册：各组件 patch 按 group 注册，例如 monkey、api、distributed、dynamo、profiler、npu、warning、asd 等。 2. 内置 patch 自动发现：`PatchManager` 会自动扫描 `_init/patches` 下符合命名规则的 patch 模块。模块被导入后，内部 patch 会完成注册。 3. 固定 patch 执行顺序：patch group 按默认顺序执行，避免 import 顺序变化导致 patch 行为漂移。 4. 支持自定义 patch 顺序：`PatchManager` 支持调整 patch group 执行顺序，便于测试或特殊场景扩展。 5. 异常钩子统一处理：全局异常钩子由 `PatchManager.run()` 统一处理，便于初始化失败和运行时异常场景的集中管理。 --- ### 7. 通过 `_enable_optional_features()` 统一管理可选运行时能力将 sanitizer、交互式模式配置、`transfer_to_npu` 等可选能力统一收口到 `_enable_optional_features()`，避免可选逻辑散落在顶层初始化入口。该阶段主要包括： `python _enable_sanitizer_if_needed() _configure_interactive_mode() _enable_transfer_to_npu_if_needed()` 具体说明： * sanitizer：仅在用户显式配置 `TORCH_NPU_SANITIZER` 时启用； * interactive mode：在交互式命令行环境中自动设置相关运行配置，并给出 warning 提示； * transfer_to_npu：通过 `TORCH_TRANSFER_TO_NPU` 控制是否启用，对非法配置进行显式报错。 --- ### 8. 通过 `_initialize_runtime_lifecycle()` 统一管理 runtime 生命周期 `_initialize_runtime_lifecycle()` 专门负责最终 C++ extension 初始化屏障和进程退出阶段的 shutdown hook 注册。该阶段主要包括： * extension finalize：调用 `torch_npu._C._initExtension()` 完成最终 C++ extension 绑定。该阶段放在核心模块加载、框架注册、API 导出和 patch 执行之后，保证 Python 侧初始化准备完成后再进入最终 extension barrier。 * shutdown hook 注册：负责注册进程退出阶段的 NPU 资源清理逻辑，包括设备同步、distributed 资源析构、异常处理和其他 runtime 清理流程。 --- ## 三、重构目的和收益本次重构的目标是把 `torch_npu` 初始化从“单文件集中式副作用堆叠”调整为“阶段化、组件化、可维护”的初始化框架。主要收益包括： 1. 顶层入口更清晰 `torch_npu/__init__.py` 只保留初始化编排，不再堆叠大量具体 import、注册、patch 和 shutdown 逻辑。 2. 初始化顺序更稳定 `_C` 子模块和基础 runtime 支撑能力统一由 `_load_core_modules` 准备，降低循环导入和 `_C` 未就绪时提前访问的风险。 3. 组件职责更清楚模块加载、框架注册、API 导出、patch、可选功能、runtime 生命周期分别由不同接口承接。 4. patch 更易维护各组件 patch 可以在自己的文件中维护，由 `PatchManager` 自动发现和统一执行，减少顶层冲突。 5. 支持后续扩展新增初始化能力时，只需放到对应处理的接口或 patch group 中，不需要继续膨胀 `__init__.py`。 6. 便于问题定位初始化链路被拆成明确阶段，出现问题时可以快速判断是模块加载、注册、导出、patch、optional feature 还是 runtime lifecycle 阶段异常。 --- ## 四、兼容性说明本次重构保持以下兼容性： 1. `import torch_npu` 行为保持兼容； 2. 顶层公开 API 保持兼容； 3. `__version__` 仍从 `torch_npu.version` 导出。 --- ## 五、PatchManager 机制说明本 PR 引入 `PatchManager`，用于统一管理 `torch_npu` 初始化阶段的 patch 注册与执行。原先 patch 逻辑集中在 `torch_npu/__init__.py` 中，和初始化流程、模块导入、框架注册逻辑混在一起，导致顶层文件过重，也不利于各组件独立维护。本次重构后，patch 逻辑从顶层入口中解耦，由 `_apply_patches()` 作为顶层入口触发执行，具体注册、发现、排序、幂等保护由 `PatchManager` 管理。 `PatchManager` 主要支持以下能力： 1. patch 按 group 分组注册； 2. 内置 patch 模块自动发现； 3. patch 按固定顺序执行； 4. patch 执行具备幂等保护； 5. 支持组件自行维护 patch module； 6. 支持按 group 执行，为后续按需使能 patch 打基础； 7. 支持自定义 patch 顺序，便于测试和问题定位。整体机制如下： `text 组件 patch 文件自注册 ↓ PatchManager 自动发现/加载 ↓ 按 group 统一管理 ↓ 按固定顺序执行 ↓ 幂等保护，避免重复 patch` --- ### 场景一：新增 torch_npu 内置 patch 如果新增的是 `torch_npu` 内置 patch，例如 distributed patch、profiler patch、NPU API patch、warning patch、ASD patch 等，可以直接放到：`torch_npu/_init/patches/` 目录下，并按 group 注册。示例： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("profiler") def apply_profiler_patch(): ...` 使用方式： `text 1. 在 _init/patches 下新增或修改对应 *_patches.py 文件； 2. 在文件中通过 @PatchManager.register_patch(group) 注册 patch； 3. import torch_npu 时，由 _apply_patches() 统一触发； 4. PatchManager 自动发现并按 group 顺序执行。` --- ### 场景二：组件自行维护 patch module 如果某个组件自己的目录下新加了patch 文件，通过 patch module 注册机制接入。示例： `python PatchManager.register_patch_module("torch_npu.some_component.some_patches")` 组件自己的 patch 文件中仍然使用 group 注册： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("some_component") def apply_some_component_patch(): ...` 使用方式： `text 1. 组件在自己的目录中维护 patch 文件； 2. 通过 register_patch_module 注册该 patch module； 3. module 被导入后，内部 patch 自动注册到 PatchManager； 4. 后续仍由 PatchManager 统一排序和执行。` 适用场景： `text 组件有独立维护边界； patch 逻辑不适合放到中心化 patches 目录；后续组件可能独立演进、迁移或删除。` --- ### 场景三：按 group 执行 patch，用于测试或后续按需使能 `PatchManager` 支持按 group 执行 patch。当前默认初始化路径仍执行全部注册 patch，后续也可按需使能。示例： `python PatchManager.apply_registered_patches("distributed")` 使用方式： `text 1. 指定需要执行的 patch group； 2. PatchManager 只执行该 group 下已注册的 patch； 3. 已执行过的 patch 不会重复执行； 4. 可用于单独验证某一类 patch 的行为。` 适用场景： `text 只验证 distributed patch；只执行 profiler patch；排查某一类 patch 对初始化流程的影响；后续通过环境变量控制某个 patch group 是否启用。` 如果需要调整 patch group 顺序，也可以使用： `python PatchManager.set_patch_order([ "monkey", "api", "distributed", ])` 适用场景： `text 测试 patch 顺序；排查 patch 依赖问题；特殊构建或实验场景调整 patch 执行顺序。` # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】新增 `TestTorchNpuBootstrap` 初始化专项测试，覆盖以下场景： 1. `test_01_import_order_compatibility` 验证 `import torch_npu`、`import torch; import torch_npu`、`import torch_npu; import torch`、重复 `import torch_npu` 等不同导入顺序保持兼容。 2. `test_02_import_state_snapshot` 验证 `import torch_npu` 后的初始化状态，包括 `torch.npu` 注册、`Tensor/Module.npu` 方法生成、`_C` child submodules 准备、旧版初始化副作用模块加载、非预期模块不 eager import、顶层关键属性可访问等。 3. `test_03_public_exports_snapshot` 验证顶层 public API 导出行为，包括 lazy Python APIs、`torch.ops.npu` public ops、deprecated `torch.<op>` alias、dtype symbols 等导出保持兼容。 4. `test_04_framework_registration_snapshot` 验证框架集成注册行为，包括 Dynamo NPU device interface、Dynamo backend、Inductor lightweight device op override、distributed backend、RPC backend 等注册保持生效。 5. `test_05_runtime_lazy_init_semantics` 验证 import 阶段不触发 NPU runtime lazy init，查询类 API 不触发完整 runtime 初始化，真实 runtime API 和显式 `torch_npu.npu.init()` 能正常触发 lazy init。 6. `test_06_component_behavior_snapshot` 验证关键组件行为保持兼容，包括 `patch_getenv` 生效、ASD detector 兼容 API、AFD 通过 `torch_npu._afd` 暴露、`torch_npu._C._afd` 不暴露、AFD ops 可访问等。 7. `test_07_distributed_patch_behavior` 验证 distributed patch 行为保持兼容，包括 distributed 内部函数替换、public API alias、rendezvous/launcher patch、FSDP 相关 patch 等。新增测试用例本地验证通过。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35338	1 个月前
npu_intercept.py	pta supports to create nested tensor Co-authored-by: chenshuai<chenshuai81@huawei.com> # message auto-generated for no-merge-commit merge: !29723 merge nestedTensor into master pta supports to create nested tensor Created-by: culechan Commit-by: chenshuai Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? > Uncomment only one `/kind <>` line, hit enter to put that in a new line, and remove leading whitespaces from that line: > > /kind bug > /kind task > /kind feature What does this PR do / why do we need it: Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!29723	4 个月前
patch_getenv.py	feat: Supports enabling environment variable log Co-authored-by: chenkun<chenkun82@huawei.com> # message auto-generated for no-merge-commit merge: !28110 merge master_feat_environ_log_v2 into master feat: Supports enabling environment variable log Created-by: kuhn7 Commit-by: chenkun Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? feature What does this PR do / why do we need it: Environment variable logging can be enabled by setting export TORCH_NPU_LOGS=env to help debug Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!28110	6 个月前
profiler.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
serialization.py	fix: memory leak in torch.save Co-authored-by: 21xiu<caixiuxiu1@huawei.com> # message auto-generated for no-merge-commit merge: !35485 merge torch_save_master into master fix: memory leak in torch.save Created-by: xiu_21 Commit-by: 21xiu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 删除torch.save里PyTorchPickler类残留的persistent_id内存 # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图 ![ScreenShot_20260512160534.JPG](https://raw.gitcode.com/user-images/assets/7404318/e09b5215-8b0b-4a92-91d9-f0179a28eced/ScreenShot_20260512160534.JPG 'ScreenShot_20260512160534.JPG') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35485	1 个月前
storage.py	Fix NPU tensor rebuild requires_grad load Co-authored-by: zhenyu10<shizhenyu5@huawei.com> # message auto-generated for no-merge-commit merge: !37817 merge master-storage-requires-grad-fix into master Fix NPU tensor rebuild requires_grad load Created-by: zhenyu10 Commit-by: zhenyu10 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [x] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新关联issue: https://gitcode.com/Ascend/pytorch/issues/2297 # 【修改方案】 > 请描述修改内容的具体实现，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR，需要补充详细设计文档（说明上下游组件关系、时序图、类图、DFX能力等内容）报错场景： 1. checkpoint 里保存的是 NPU tensor 2. 这个 NPU tensor 序列化时带着 requires_grad=True 3. 加载时走到 torch_npu.utils.storage._rebuild_npu_tensor 4. 旧代码先创建 requires_grad=True 的临时 leaf tensor 5. 然后对它执行 set_ 这种 in-place 操作报错： RuntimeError: a leaf Variable that requires grad is being used in an in-place operation. 修改方式：对齐torch原生社区，empty里不使用requires_grad=True # 【资料变更】 > 请确认是否涉及资料变更。如涉及，需要在PR中体现，并简要说明修改内容。如不涉及，需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及，需要详细说明接口以及对应的变更内容，同时需要在资料中体现。如不涉及，需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景，测试方法。如果本次测试方式与常规单元测试不同，请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护，并补充测试自验证截图可以正常加载权重，验证见issue # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!37817	23 天前
syncbatchnorm.py	fix: lintrunner --all-files --take NEWLINE -a Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35539 merge code_check_lintrunner into master fix: lintrunner --all-files --take NEWLINE -a Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】文件必须以 LF 换行符结尾，不允许 CRLF（DOS 换行），执行： lintrunner --all-files --take NEWLINE -a # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35539	1 个月前
tensor_methods.py	[Fix] Fix static check errors detected by SPACES Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35981 merge master_lintrunner into master [Fix] Fix static check errors detected by SPACES Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】检测和删除代码中的行尾空白字符 # 【资料变更】不涉及 # 【接口变更】不涉及 # 【功能验证】不涉及 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35981	1 个月前
unsupport_api.py	pta supports to create nested tensor Co-authored-by: chenshuai<chenshuai81@huawei.com> # message auto-generated for no-merge-commit merge: !29723 merge nestedTensor into master pta supports to create nested tensor Created-by: culechan Commit-by: chenshuai Merged-by: ascend-robot Description: <!-- Thanks for sending a pull request! --> What type of PR is this? > Uncomment only one `/kind <>` line, hit enter to put that in a new line, and remove leading whitespaces from that line: > > /kind bug > /kind task > /kind feature What does this PR do / why do we need it: Which issue(s) this PR fixes: <!-- Automatically closes linked issue when PR is merged. Usage: `Fixes #<issue number>`, or `Fixes (paste link of issue)`. --> Fixes # Special notes for your reviewers*: See merge request: Ascend/pytorch!29723	4 个月前
utils.py	refactor for torch_npu init module. Co-authored-by: bellatan<tanmei2@huawei.com> # message auto-generated for no-merge-commit merge: !35338 merge torch_npu_init_refactor into master refactor for torch_npu init module. Created-by: bellatan Commit-by: bellatan Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20260203 --> # 【合入来源】 > <font color="red">如有社区issue，请关联issue链接</font>\ > <font color="red">请勿携带内部流程信息（需求链接、问题单、内部issue等）</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】本 PR 对 `torch_npu` 初始化链路进行重构，将原先集中在 `torch_npu/__init__.py` 中的初始化逻辑拆分到 `_init` 目录下的多个职责模块中，形成“顶层编排 + 子模块分阶段执行 + 内部能力统一收口”的结构。重构后，`torch_npu/__init__.py` 不再承载大量具体业务初始化细节，只负责固定初始化时序。各类具体能力分别由 `_check_device_conflict`、`_load_core_modules`、`_register_components`、`_apply_patches`、`_enable_optional_features`、`_initialize_runtime_lifecycle` 等内部函数承接。 ## 一、核心修改 ### 1. 重构 `torch_npu/__init__.py` 顶层初始化入口重构后的初始化流程如下： `python def _initialize(): _check_device_conflict() _load_core_modules() _register_components() _apply_patches() _enable_optional_features() _initialize_runtime_lifecycle()` 顶层入口主要负责： 1. 维护 `__all__`； 2. 在 `import torch` 前关闭 `TORCH_DEVICE_BACKEND_AUTOLOAD`，避免 PyTorch 后端自动加载导致循环依赖； 3. 提前导入 `torch_npu.utils.patch_getenv`，用于捕获初始化阶段的环境变量访问； 4. 按固定顺序调用各初始化阶段入口； 5. 保留 `_autoload()` 作为 PyTorch 后端自动加载入口，用于恢复 `TORCH_DEVICE_BACKEND_AUTOLOAD`。 --- ### 2. 新增 `_init` 目录：目录结构如下： `text torch_npu/_init/ __init__.py common/ warning_utils.py core/ _exports.py module_loader.py optional_features.py runtime_lifecycle.py patches/ __init__.py api_patches.py asd_patches.py distributed_patches.py dynamo_patches.py monkey_patches.py npu_patches.py patch_manager.py profiler_patches.py warning_patches.py registry/ __init__.py backend.py distributed.py dynamo.py registry_manager.py` --- ### 3. 通过 `_check_device_conflict()` 处理前置设备冲突检查 `_check_device_conflict()`：负责最早期的设备冲突检查，避免 NPU 与其他 accelerator 同时启用。该接口属于初始化内部逻辑，不作为 public API 暴露。 --- ### 4. 通过 `_load_core_modules()` 统一管理核心模块加载、注册副作用和顶层 API 导出 `_load_core_modules()` 将原先散落在 `torch_npu/__init__.py` 中的模块导入、底层 `_C` 子模块准备、基础 runtime 支撑模块初始化、导入即注册副作用以及顶层 API 导出统一收口。该阶段主要负责： 1. 加载 `torch_npu` 初始化所需的核心模块； 2. 统一准备 `_C` child submodules； 3. 初始化 logging、profiler、distributed 等基础组件； 4. 在 `_C` 准备完成后进行 `torch_npu.npu` 导入检查； 5. 加载需要通过 import 触发注册副作用的 Python 模块； 6. 导出 `torch_npu` 顶层 public API。具体包括： * `_C` 子模块初始化：统一创建并注册 `_profiler`、`_distributed_c10d`、`_cd`、`_logging`、`_flops_count` 等 `_C` child submodules，保证业务 Python 模块只消费这些子模块，不再各自创建。 * `torch_npu.npu` 导入检查：在 `_C` 子模块完成准备后再检查 `torch_npu.npu` 导入状态，既保留对底层依赖缺失的友好报错，又避免 `_C` 未就绪时提前 import `torch_npu.npu` 导致循环导入。 * 导入副作用模块加载：统一加载需要通过 import 触发注册副作用的模块，例如 aclnn、optim、afd、custom ops、op_plugin、meta registrations 等，避免注册类副作用散落在初始化流程中。 * 顶层 API 导出：通过 `export_all` 将 `torch_npu` 顶层公开 API 统一导出到 `globals()` 和 `__all__` 中，保证 public API 行为与旧版兼容。 * lazy Python API：对 `HiFloat8Tensor`、`erase_stream`、`matmul_checksum` 等接口采用 lazy export，保证接口可见但不在 import 阶段立即加载对应模块，减少循环导入风险。 * NPU custom ops：将 `torch.ops.npu` 下的公开算子导出到 `torch_npu` 顶层，并保留 `torch.<op>` deprecated wrapper。 * dtype symbols：将 `_C._cd.DType` 中的 dtype 符号导出到 `torch_npu` 顶层。 --- ### 5. 通过 `_register_components()` 统一管理框架集成注册 `_register_components()` 负责 backend 和 framework integration 注册，将原先散落在顶层入口中的 NPU backend、distributed、Dynamo、RPC、Inductor 等注册逻辑统一收口。通过该阶段统一收口后，框架集成注册逻辑不再散落在顶层 `__init__.py` 中，后续新增集成能力时可直接在 registry 目录下维护。该阶段主要负责： * NPU backend 注册：将 PyTorch PrivateUse1 backend 映射为 NPU，并注册 `torch.npu` 设备模块和相关方法。 * distributed backend 注册：注册 HCCL、LCCL backend，保证 NPU distributed 能力可用。 * Dynamo 注册：注册 Dynamo backend、NPU device interface 和 trace rules，保证 NPU 能接入 Dynamo 编译链路。 * RPC 注册：注册 NPU RPC backend，保证 RPC 场景下 NPU backend 可用。 * Inductor lightweight override 注册：只注册轻量级 NPU device op override，避免 import 阶段提前加载 heavy module。 * 默认 gradient device type 配置：保持 checkpoint 等场景下默认设备类型与旧行为兼容。 --- ### 6. 通过 `_apply_patches()` 统一管理 patch 注册与执行引入集中式 patch 管理机制，统一收口原先散落在初始化入口中的 patch 逻辑。顶层入口 `_apply_patches()` 负责触发 patch 发现、注册和执行，具体由 `PatchManager` 承接。`_apply_patches()` 主要完成以下工作： 1. patch 分组注册：各组件 patch 按 group 注册，例如 monkey、api、distributed、dynamo、profiler、npu、warning、asd 等。 2. 内置 patch 自动发现：`PatchManager` 会自动扫描 `_init/patches` 下符合命名规则的 patch 模块。模块被导入后，内部 patch 会完成注册。 3. 固定 patch 执行顺序：patch group 按默认顺序执行，避免 import 顺序变化导致 patch 行为漂移。 4. 支持自定义 patch 顺序：`PatchManager` 支持调整 patch group 执行顺序，便于测试或特殊场景扩展。 5. 异常钩子统一处理：全局异常钩子由 `PatchManager.run()` 统一处理，便于初始化失败和运行时异常场景的集中管理。 --- ### 7. 通过 `_enable_optional_features()` 统一管理可选运行时能力将 sanitizer、交互式模式配置、`transfer_to_npu` 等可选能力统一收口到 `_enable_optional_features()`，避免可选逻辑散落在顶层初始化入口。该阶段主要包括： `python _enable_sanitizer_if_needed() _configure_interactive_mode() _enable_transfer_to_npu_if_needed()` 具体说明： * sanitizer：仅在用户显式配置 `TORCH_NPU_SANITIZER` 时启用； * interactive mode：在交互式命令行环境中自动设置相关运行配置，并给出 warning 提示； * transfer_to_npu：通过 `TORCH_TRANSFER_TO_NPU` 控制是否启用，对非法配置进行显式报错。 --- ### 8. 通过 `_initialize_runtime_lifecycle()` 统一管理 runtime 生命周期 `_initialize_runtime_lifecycle()` 专门负责最终 C++ extension 初始化屏障和进程退出阶段的 shutdown hook 注册。该阶段主要包括： * extension finalize：调用 `torch_npu._C._initExtension()` 完成最终 C++ extension 绑定。该阶段放在核心模块加载、框架注册、API 导出和 patch 执行之后，保证 Python 侧初始化准备完成后再进入最终 extension barrier。 * shutdown hook 注册：负责注册进程退出阶段的 NPU 资源清理逻辑，包括设备同步、distributed 资源析构、异常处理和其他 runtime 清理流程。 --- ## 三、重构目的和收益本次重构的目标是把 `torch_npu` 初始化从“单文件集中式副作用堆叠”调整为“阶段化、组件化、可维护”的初始化框架。主要收益包括： 1. 顶层入口更清晰 `torch_npu/__init__.py` 只保留初始化编排，不再堆叠大量具体 import、注册、patch 和 shutdown 逻辑。 2. 初始化顺序更稳定 `_C` 子模块和基础 runtime 支撑能力统一由 `_load_core_modules` 准备，降低循环导入和 `_C` 未就绪时提前访问的风险。 3. 组件职责更清楚模块加载、框架注册、API 导出、patch、可选功能、runtime 生命周期分别由不同接口承接。 4. patch 更易维护各组件 patch 可以在自己的文件中维护，由 `PatchManager` 自动发现和统一执行，减少顶层冲突。 5. 支持后续扩展新增初始化能力时，只需放到对应处理的接口或 patch group 中，不需要继续膨胀 `__init__.py`。 6. 便于问题定位初始化链路被拆成明确阶段，出现问题时可以快速判断是模块加载、注册、导出、patch、optional feature 还是 runtime lifecycle 阶段异常。 --- ## 四、兼容性说明本次重构保持以下兼容性： 1. `import torch_npu` 行为保持兼容； 2. 顶层公开 API 保持兼容； 3. `__version__` 仍从 `torch_npu.version` 导出。 --- ## 五、PatchManager 机制说明本 PR 引入 `PatchManager`，用于统一管理 `torch_npu` 初始化阶段的 patch 注册与执行。原先 patch 逻辑集中在 `torch_npu/__init__.py` 中，和初始化流程、模块导入、框架注册逻辑混在一起，导致顶层文件过重，也不利于各组件独立维护。本次重构后，patch 逻辑从顶层入口中解耦，由 `_apply_patches()` 作为顶层入口触发执行，具体注册、发现、排序、幂等保护由 `PatchManager` 管理。 `PatchManager` 主要支持以下能力： 1. patch 按 group 分组注册； 2. 内置 patch 模块自动发现； 3. patch 按固定顺序执行； 4. patch 执行具备幂等保护； 5. 支持组件自行维护 patch module； 6. 支持按 group 执行，为后续按需使能 patch 打基础； 7. 支持自定义 patch 顺序，便于测试和问题定位。整体机制如下： `text 组件 patch 文件自注册 ↓ PatchManager 自动发现/加载 ↓ 按 group 统一管理 ↓ 按固定顺序执行 ↓ 幂等保护，避免重复 patch` --- ### 场景一：新增 torch_npu 内置 patch 如果新增的是 `torch_npu` 内置 patch，例如 distributed patch、profiler patch、NPU API patch、warning patch、ASD patch 等，可以直接放到：`torch_npu/_init/patches/` 目录下，并按 group 注册。示例： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("profiler") def apply_profiler_patch(): ...` 使用方式： `text 1. 在 _init/patches 下新增或修改对应 *_patches.py 文件； 2. 在文件中通过 @PatchManager.register_patch(group) 注册 patch； 3. import torch_npu 时，由 _apply_patches() 统一触发； 4. PatchManager 自动发现并按 group 顺序执行。` --- ### 场景二：组件自行维护 patch module 如果某个组件自己的目录下新加了patch 文件，通过 patch module 注册机制接入。示例： `python PatchManager.register_patch_module("torch_npu.some_component.some_patches")` 组件自己的 patch 文件中仍然使用 group 注册： `python from torch_npu._init.patches.patch_manager import PatchManager @PatchManager.register_patch("some_component") def apply_some_component_patch(): ...` 使用方式： `text 1. 组件在自己的目录中维护 patch 文件； 2. 通过 register_patch_module 注册该 patch module； 3. module 被导入后，内部 patch 自动注册到 PatchManager； 4. 后续仍由 PatchManager 统一排序和执行。` 适用场景： `text 组件有独立维护边界； patch 逻辑不适合放到中心化 patches 目录；后续组件可能独立演进、迁移或删除。` --- ### 场景三：按 group 执行 patch，用于测试或后续按需使能 `PatchManager` 支持按 group 执行 patch。当前默认初始化路径仍执行全部注册 patch，后续也可按需使能。示例： `python PatchManager.apply_registered_patches("distributed")` 使用方式： `text 1. 指定需要执行的 patch group； 2. PatchManager 只执行该 group 下已注册的 patch； 3. 已执行过的 patch 不会重复执行； 4. 可用于单独验证某一类 patch 的行为。` 适用场景： `text 只验证 distributed patch；只执行 profiler patch；排查某一类 patch 对初始化流程的影响；后续通过环境变量控制某个 patch group 是否启用。` 如果需要调整 patch group 顺序，也可以使用： `python PatchManager.set_patch_order([ "monkey", "api", "distributed", ])` 适用场景： `text 测试 patch 顺序；排查 patch 依赖问题；特殊构建或实验场景调整 patch 执行顺序。` # 【资料变更】 > 不涉及 # 【接口变更】 > 不涉及 # 【功能验证】新增 `TestTorchNpuBootstrap` 初始化专项测试，覆盖以下场景： 1. `test_01_import_order_compatibility` 验证 `import torch_npu`、`import torch; import torch_npu`、`import torch_npu; import torch`、重复 `import torch_npu` 等不同导入顺序保持兼容。 2. `test_02_import_state_snapshot` 验证 `import torch_npu` 后的初始化状态，包括 `torch.npu` 注册、`Tensor/Module.npu` 方法生成、`_C` child submodules 准备、旧版初始化副作用模块加载、非预期模块不 eager import、顶层关键属性可访问等。 3. `test_03_public_exports_snapshot` 验证顶层 public API 导出行为，包括 lazy Python APIs、`torch.ops.npu` public ops、deprecated `torch.<op>` alias、dtype symbols 等导出保持兼容。 4. `test_04_framework_registration_snapshot` 验证框架集成注册行为，包括 Dynamo NPU device interface、Dynamo backend、Inductor lightweight device op override、distributed backend、RPC backend 等注册保持生效。 5. `test_05_runtime_lazy_init_semantics` 验证 import 阶段不触发 NPU runtime lazy init，查询类 API 不触发完整 runtime 初始化，真实 runtime API 和显式 `torch_npu.npu.init()` 能正常触发 lazy init。 6. `test_06_component_behavior_snapshot` 验证关键组件行为保持兼容，包括 `patch_getenv` 生效、ASD detector 兼容 API、AFD 通过 `torch_npu._afd` 暴露、`torch_npu._C._afd` 不暴露、AFD ops 可访问等。 7. `test_07_distributed_patch_behavior` 验证 distributed patch 行为保持兼容，包括 distributed 内部函数替换、public API alias、rendezvous/launcher patch、FSDP 相关 patch 等。新增测试用例本地验证通过。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] - [x] 代码注释完备，正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签，如：feat、fix、refactor、docs、test等 - [x] PR持续集成流水线（CI）执行通过，代码检查无异常 See merge request: Ascend/pytorch!35338	1 个月前