文件最后提交记录最后更新时间
fix: lintrunner --all-files --take NEWLINE -a Co-authored-by: huangjingwei<huangjingwei4@huawei.com> # message auto-generated for no-merge-commit merge: !35871 merge v2.7.1_lintrunner into v2.7.1 fix: lintrunner --all-files --take NEWLINE -a Created-by: huangjingwei Commit-by: huangjingwei Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容) # 【资料变更】 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及” # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3587116 天前
[refactor] eliminate the dependency on libhccl and libopapi when import torch_npu Co-authored-by: liwei386<liwei386@huawei.com> # message auto-generated for no-merge-commit merge: !31869 merge v2.7.1 into v2.7.1 [refactor] eliminate the dependency on libhccl and libopapi when import torch_npu Created-by: liwei386 Commit-by: liwei386 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 1、将hccl接口改成运行时加载,消除import torch_npu时对libhccl的依赖 > 2、优化asd初始化逻辑,避免import torch_npu时依赖libopapi算子库 # 【资料变更】 > “不涉及” # 【接口变更】 > “不涉及” # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!318692 个月前
!11232 Register the communication operator adaptation required by data_parallel Merge pull request !11232 from 闫鹏全/master 2 年前
torch_npu.npu.Event inherits torch.Event, add GetPerStreamQueue in NPUGuardImpl's function Co-authored-by: zhaoyu<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !29915 merge v2.7.1-event_stream into v2.7.1 torch_npu.npu.Event inherits torch.Event, add GetPerStreamQueue in NPUGuardImpl's function Created-by: zhaoyu65 Commit-by: zhaoyu Merged-by: ascend-robot Description: # 【合入来源】 > (如有)请关联需求文档/issue链接 - [x] 需求 event/stream等接口对齐社区接入逻辑 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1、将torch_npu.npu.Event修改为torch.Event的子类,和pytorch原生代码行为保持一致; 2、实现NPUGuardImpl::uncheckedGetDevice(); 3、NPUGuardImpl::block()、destroyEvent()支持PerStreamQueue,参考NPUEvent; 4、优化NPUGuardImpl::synchronizeEvent(); # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 1、使用isinstance、issubclass方法校验torch_npu.npu.Event和torch.Event的关系; 2、验证单流单queue场景是否正常; # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!299153 个月前
torch_npu.npu.Event inherits torch.Event, add GetPerStreamQueue in NPUGuardImpl's function Co-authored-by: zhaoyu<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !29915 merge v2.7.1-event_stream into v2.7.1 torch_npu.npu.Event inherits torch.Event, add GetPerStreamQueue in NPUGuardImpl's function Created-by: zhaoyu65 Commit-by: zhaoyu Merged-by: ascend-robot Description: # 【合入来源】 > (如有)请关联需求文档/issue链接 - [x] 需求 event/stream等接口对齐社区接入逻辑 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1、将torch_npu.npu.Event修改为torch.Event的子类,和pytorch原生代码行为保持一致; 2、实现NPUGuardImpl::uncheckedGetDevice(); 3、NPUGuardImpl::block()、destroyEvent()支持PerStreamQueue,参考NPUEvent; 4、优化NPUGuardImpl::synchronizeEvent(); # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 1、使用isinstance、issubclass方法校验torch_npu.npu.Event和torch.Event的关系; 2、验证单流单queue场景是否正常; # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!299153 个月前
[bugfix][v2.7.1_logs] improve npugraph logs Co-authored-by: y30062407<handsome0324@163.com> # message auto-generated for no-merge-commit merge: !37130 merge v2.7.1_logs into v2.7.1 [bugfix][v2.7.1_logs] improve npugraph logs Created-by: yangch0324 Commit-by: y30062407 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [x] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容) 补全 NPUGraph 框架全链路日志,覆盖 C++ 核心层、Python 图树管理层、Python 单图层以及内存池层,共 12 个修改点: **1. C++ capture_begin 补全录制完成状态日志(NPUGraph.cpp)** 在 capture_begin() 返回前输出 model_ri_ 句柄、capture 设备、内存池 ID、stream 地址、capture mode,用于排查录制阶段的内存池冲突和 stream 配置错误。 **2. C++ capture_end 补全录制结束状态日志(NPUGraph.cpp)** 在 capture_end() 返回前输出 model_ri_ 句柄和 has_graph_exec 标志,用于确认录制是否成功完成。 **3. C++ reset 添加图销毁日志(NPUGraph.cpp)** 在 reset() 函数的图资源释放路径中输出 model_ri_、capture_dev、mempool_id,用于追踪图对象生命周期和排查内存泄漏。 **4. C++ super_kernel_scope_begin/end 添加日志(Graph.cpp)** 在 pybind11 绑定层 _super_kernel_scope_begin / _super_kernel_scope_end 调用前后输出 scope_name,用于排查超核优化的 scope 配对问题。 **5. Python NPUGraph 对象生命周期日志(graphs.py)** 在 NPUGraph.__init__()NPUGraph.reset() 中添加日志,输出 graph_id 和 auto_dispatch 状态,与 C++ 层日志联动形成完整的图生命周期视图。 **6. Python NPUGraphTreeManager 初始化与 shutdown 日志(_graph_tree.py)** 在管理器构造函数完成和 shutdown() 入口/出口添加日志,输出 device、pool ID、stream 信息,追踪设备级图树生命周期。 **7. Python NPUGraphNode 录制完成日志(_graph_tree.py)** 在 _record() 返回前输出图节点录制结果(输出数量、非静态输入数量、静态输入索引数量),用于排查录制异常。 **8. Python check_invariants 失败日志(_graph_tree.py)** 在三种 invariant check 失败分支(CudagraphManagedIdxMismatch / ExpectedDeadIndicesBeforeGraph / StaticInputIdxMismatch)添加日志,输出不匹配的具体信息,用于排查频繁 re-record 的根因。 **9. Python checkpoint 细节日志(_graph_tree.py)** 在 apply_checkpoint_execution_state_in_allocator() 中添加 live_storages 数量和待释放内存指针数量的日志,用于排查 checkpoint/restore 流程中的内存一致性问题。 **10. C++ NPUCachingAllocator 图池操作日志(NPUCachingAllocator.cpp)** 在 5 个图内存池接口添加日志: - beginAllocateToPool:输出新建/复用池的 mempool_id 和 use_count - endAllocateToPool:输出结束录制的 mempool_id - releasePool:输出 use_count 降为 0 时的 mempool_id - getCheckpointState:输出 checkpoint 时的 head_blocks 数量 - setCheckpointPoolState:输出恢复的 segments 数量和释放的 allocations 数量 **11. Python graph context manager 异常日志增强(graphs.py)** 在 graph.__exit__() 的异常分支中补充输出 graph_id、stream、pool、device 信息,帮助快速定位 capture 失败上下文。 **12. Python 图树状态机转换日志(_graph_tree.py)** 在 record_function / execute_node / run_eager 中设置 ExecutionState 后添加状态转换日志,输出新状态、节点 ID 和 generation,完整追踪状态机转换历史。 **日志级别原则:** - 所有新增日志均为 DEBUG 级别,不影响生产环境性能 - 已有 ERROR/WARNING 级别日志仅在内容上增强(修改点 11),不新增 INFO/WARNING/ERROR 日志 # 【资料变更】 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/3b9a664e-4b0a-4675-a84e-6d9acef6cd2d/image.png 'image.png') **验证场景:** 1. 在 NPU 设备上使用 torch.compile 以 "npugraphs" backend 运行模型训练/推理 2. 设置环境变量 TORCH_CPP_LOG_LEVEL=0 TORCH_NPU_NPUGRAPH=DEBUG 启用 NPUGraph C++ 日志 3. 设置 Python logging 级别为 DEBUG:torch._logging.set_logs(npugraph=logging.DEBUG) **验证方法:** 1. 检查 capture 阶段日志:确认 [NPUGRAPH][Capture] begin / begin done / end / end done 完整输出,model_ri、mempool_id、capture_dev 正确 2. 检查 replay 阶段日志:确认 [NPUGRAPH][Replay] 输出 model_ri 和 device 3. 检查图树日志:确认 [NPUGRAPH-TREE][Manager] / [Node] / [State] 系列日志按预期输出 4. 检查 checkpoint 日志:在 warmup → recording 切换时确认 [NPUGRAPH-TREE][Checkpoint] 日志输出 live_storages 和 dead_ptrs 数量 5. 检查 invariant 日志:确认仅在 re-record 触发时有 [NPUGRAPH-TREE][Invariant] 输出 6. 检查图对象生命周期:确认 [NPUGRAPH][Lifecycle] 日志在 graph 创建和 reset 时输出 7. 检查图池日志:确认 NPUCachingAllocator beginAllocateToPool / endAllocateToPool / releasePool 配对输出 8. 检查 capture 失败场景:确认 [NPUGRAPH] ERROR — capture failed 日志包含 graph_id / stream / pool / device 信息 **测试用例:** 本修改仅在已有日志路径中添加 DEBUG 级别日志,不改变任何业务逻辑。使用现有 CI 全量测试用例验证无回归即可。 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!371308 小时前
[2.7.1][refactor]CANN ACL headers decouple Co-authored-by: Dring<17737727613@163.com> # message auto-generated for no-merge-commit merge: !36004 merge v2.7.1 into v2.7.1 [2.7.1][refactor]CANN ACL headers decouple Created-by: Dring Commit-by: Dring Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ https://gitcode.com/Ascend/pytorch/issues/2042 > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [✓ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [✓ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容) cann已开源,PTA在编译过程中动态获取CANN头文件,避免本地保存的头文件与CANN开源版本存在差异导致上层应用编译异常。 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b3364c14-c598-475f-a7ca-d9336bbe6e53/image.png 'image.png') 核心逻辑: 2.10以下分支保留开源头文件中没有的头文件,2.10以上分支原头文件全部删除,拉取的开源头文件进行复制覆盖 2.10以上分支检查 third_party/acl/inc/acl/ 是否已有内容,有则跳过(幂等) 按优先级复制头文件到 third_party/acl/inc/acl/(先 runtime,后 ge 覆盖,再super_kernel.h) 删除临时目录 # 【资料变更】 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 编包成功,没有本地文件找不到的头文件符号 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/75916028-66e1-4d24-ba7f-ed0bb2d7ab25/image.png 'image.png') 安装成功 初始化无报错: ![image.png](https://raw.gitcode.com/user-images/assets/7404318/77803f3f-3f69-4594-9460-dc0118f4c0b8/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [✓ ] 代码注释完备,正确记录错误日志 - [✕ ] 代码实现进行了返回值、空指针等校验 - [✓ ] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [✓ ] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3600413 天前
!19150 support npugraph and mempool Merge pull request !19150 from jiangpengfei/master 1 年前
Use AclrtRepairError in restart device Co-authored-by: zhaoyu65<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !37122 merge repair into v2.7.1 Use AclrtRepairError in restart device Created-by: zhaoyu65 Commit-by: zhaoyu65 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 [#2181](https://gitcode.com/Ascend/pytorch/issues/2181) PTA故障快恢restart device流程需要适配aclrtRepairError # 【修改方案】 ## 1. 高层概览 (TL;DR) * **影响范围:** 🔄 **中等** - 重构了 NPU 设备错误恢复机制,增加了 CANN 版本兼容性检测。 * **关键变更:** * ✨ 新增 get_device_error_info() 公共 API,将设备错误信息获取功能从匿名命名空间导出。 * 🔧 重构 THNPModule_restart_device_wrap 函数,根据 CANN 版本选择不同的错误恢复策略。 * 📦 新版本 CANN 使用 AclrtRepairError 进行错误修复,旧版本保持原有 UCE 内存修复逻辑。 --- # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 验证OK # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!371222 天前
【fix】move recovery log macro to NPURecovery.h and delete C10_NPU_API of GetEnvLogger func Co-authored-by: zhaoyu<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !34713 merge v2.7.1-log into v2.7.1 【fix】move recovery log macro to NPURecovery.h and delete C10_NPU_API of GetEnvLogger func Created-by: zhaoyu65 Commit-by: zhaoyu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 [#1811](https://gitcode.com/Ascend/pytorch/issues/1811) - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1、将故障快恢模块的日志宏单独放在新建的文件NPURecovery.h里,取消用C10_NPU_API宏修饰GetEnvLogger函数; 2、修改了因为CI配置的CodeCheck_lintrunner检查出的代码规范问题; # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 验证OK ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b903763e-9160-4224-a316-45afb051b631/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3471327 天前
add record_stream sanitizer Co-authored-by: bellatan<tanmei2@huawei.com> Co-authored-by: hb_hubin<hubin79@huawei.com> # message auto-generated for no-merge-commit merge: !35835 merge v2.7.1_record_stream_sanitizer into v2.7.1 add record_stream sanitizer Created-by: bellatan Commit-by: bellatan;hb_hubin Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [x] 需求 - [ ] 问题单 - [ ] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容) # 【资料变更】 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及” # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及” # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 本地验证 1. test/npu/test_sanitizer.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/db51597e-f6bf-4b34-8ba1-170ba8bb5bde/image.png 'image.png') 2. test/npu/test_sanitizer_record_stream.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/630b87e8-dc9c-4c9a-a2d4-932b9ad18dca/image.png 'image.png') 3. test/test_npu_sanitizer.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/ecb4d1f1-aef9-4b9b-a082-75ff16991064/image.png 'image.png') 4. test/test_sanitizer_pluggable_allocator.py ![image.png](https://raw.gitcode.com/user-images/assets/7404318/ffa87f39-c755-41fe-8176-9cb38cd73a09/image.png 'image.png') 5. ci结果 ·UT_ARM_A2_Part_01:test/test_npu_sanitizer.py,pass ![image.png](https://raw.gitcode.com/user-images/assets/7404318/d5fb5242-cb11-435d-ae2b-36960a9522f8/image.png 'image.png') ·UT_ARM_A2_Part_02:test/npu/test_sanitizer.py,pass;test/test_sanitizer_pluggable_allocator.py pass ![1778915605465.png](https://raw.gitcode.com/user-images/assets/7404318/243673b4-b5b0-4c5d-8c21-3d22f84cce82/1778915605465.png '1778915605465.png') ·UT_ARM_A2_Part_03:test/npu/test_sanitizer_record_stream.py,pass ![1778915660126.png](https://raw.gitcode.com/user-images/assets/7404318/b1e2f979-f4f7-4f24-b4b9-b1987de33677/1778915660126.png '1778915660126.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3583513 天前
add graph api extension for pluggable allocator Co-authored-by: ltcs11<litangshengsheng@huawei.com> # message auto-generated for no-merge-commit merge: !31794 merge v2.7.1 into v2.7.1 add graph api extension for pluggable allocator Created-by: ltcs11 Commit-by: ltcs11 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 https://gitcode.com/Ascend/pytorch/issues/1574 - [ ] 需求 - [ ] 问题单 - [x] issue/工单 - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 新增pluggable allocator自定义函数注册(已有自定义函数接口,仅新增注册功能,原调用会报错,新增后如有已注册接口则调用接口,未注册继续报错) 1. begin_allocate_to_pool_fn_ 2. end_allocate_to_pool_fn_ 3. release_pool_fn_ # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 不涉及,CUDA Pluggable Allocator并无此类测试 # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!317942 个月前
【fix】move recovery log macro to NPURecovery.h and delete C10_NPU_API of GetEnvLogger func Co-authored-by: zhaoyu<nanzhaogang@qq.com> # message auto-generated for no-merge-commit merge: !34713 merge v2.7.1-log into v2.7.1 【fix】move recovery log macro to NPURecovery.h and delete C10_NPU_API of GetEnvLogger func Created-by: zhaoyu65 Commit-by: zhaoyu Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [ ] 需求 - [ ] 问题单 - [x] issue/工单 [#1811](https://gitcode.com/Ascend/pytorch/issues/1811) - [ ] 重构优化 - [ ] 资料更新 # 【修改方案】 1、将故障快恢模块的日志宏单独放在新建的文件NPURecovery.h里,取消用C10_NPU_API宏修饰GetEnvLogger函数; 2、修改了因为CI配置的CodeCheck_lintrunner检查出的代码规范问题; # 【资料变更】 不涉及 # 【接口变更】 不涉及 # 【功能验证】 验证OK ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b903763e-9160-4224-a316-45afb051b631/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [x] 代码注释完备,正确记录错误日志 - [x] 代码实现进行了返回值、空指针等校验 - [x] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [x] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3471327 天前
!24627 [feat] support high priority stream Merge pull request !24627 from xudaohong/v2.7.1-1 8 个月前
!20261 [feat] aclGraph task group Merge pull request !20261 from xudaohong/master 1 年前
[2.7.1][refactor]CANN ACL headers decouple Co-authored-by: Dring<17737727613@163.com> # message auto-generated for no-merge-commit merge: !36004 merge v2.7.1 into v2.7.1 [2.7.1][refactor]CANN ACL headers decouple Created-by: Dring Commit-by: Dring Merged-by: ascend-robot Description: <!-- PR描述模板更新日期:20260203 --> # 【合入来源】 > <font color="red">**如有社区issue,请关联issue链接**</font>\ https://gitcode.com/Ascend/pytorch/issues/2042 > <font color="red">**请勿携带内部流程信息(需求链接、问题单、内部issue等)**</font> - [✓ ] 需求 - [ ] 问题单 - [ ] issue/工单 - [✓ ] 重构优化 - [ ] 资料更新 # 【修改方案】 > 请描述修改内容的具体实现,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列\ > 如果是需求或者重构类的PR,需要补充详细设计文档(说明上下游组件关系、时序图、类图、DFX能力等内容) cann已开源,PTA在编译过程中动态获取CANN头文件,避免本地保存的头文件与CANN开源版本存在差异导致上层应用编译异常。 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/b3364c14-c598-475f-a7ca-d9336bbe6e53/image.png 'image.png') 核心逻辑: 2.10以下分支保留开源头文件中没有的头文件,2.10以上分支原头文件全部删除,拉取的开源头文件进行复制覆盖 2.10以上分支检查 third_party/acl/inc/acl/ 是否已有内容,有则跳过(幂等) 按优先级复制头文件到 third_party/acl/inc/acl/(先 runtime,后 ge 覆盖,再super_kernel.h) 删除临时目录 # 【资料变更】 > 请确认是否涉及资料变更。如涉及,需要在PR中体现,并简要说明修改内容。如不涉及,需填写“不涉及” 不涉及 # 【接口变更】 > 请确认是否涉及跨代码仓或者客户面可见的接口变更。如涉及,需要详细说明接口以及对应的变更内容,同时需要在资料中体现。如不涉及,需填写“不涉及” 不涉及 # 【功能验证】 > 说明测试场景,测试方法。如果本次测试方式与常规单元测试不同,请详细说明您的测试步骤\ > 新增/变更内容是否已新增/适配UT测试用例看护,并补充测试自验证截图 编包成功,没有本地文件找不到的头文件符号 ![image.png](https://raw.gitcode.com/user-images/assets/7404318/75916028-66e1-4d24-ba7f-ed0bb2d7ab25/image.png 'image.png') 安装成功 初始化无报错: ![image.png](https://raw.gitcode.com/user-images/assets/7404318/77803f3f-3f69-4594-9460-dc0118f4c0b8/image.png 'image.png') # 【CheckList】 > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] - [✓ ] 代码注释完备,正确记录错误日志 - [✕ ] 代码实现进行了返回值、空指针等校验 - [✓ ] PR标题正确使用类型标签,如:feat、fix、refactor、docs、test等 - [✓ ] PR持续集成流水线(CI)执行通过,代码检查无异常 See merge request: Ascend/pytorch!3600413 天前
!23428 Support p2p detect Merge pull request !23428 from 王超/v2.7.0_stresshccl 9 个月前
!23601 add segment_pool_id in memory snapshot Merge pull request !23601 from 郭光浩/v2.7.1 9 个月前
!12205 [3/N][memory_snapshot][feat] add flamegraph visualization Merge pull request !12205 from 杜金航/master 1 年前