文件最后提交记录最后更新时间
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前
costmodel clean code Co-authored-by: ZhangZGC<8623924@qq.com> # message auto-generated for no-merge-commit merge: !982 merge master into master costmodel clean code Created-by: ZhangZGC Commit-by: ZhangZGC Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!98212 天前
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前
fix: tianti clean code Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1029 merge dev_wxk/fix_tianti_cleancode_0601 into master fix: tianti clean code Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 tianti cleancode要求 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10294 天前
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前
costmodel support fit cycle Co-authored-by: ZhangZGC<8623924@qq.com> # message auto-generated for no-merge-commit merge: !818 merge dev/costmodel_fit into master costmodel support fit cycle Created-by: ZhangZGC Commit-by: ZhangZGC Merged-by: cann-robot Description: ## 描述 costmodel新增指令cycle拟合函数,给定rows、cols、dtype,直接返回cycle。同时支持输出时延的预测。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/pto-isa/issues/319 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!8181 个月前
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前
costmodel refactoring Co-authored-by: ZhangZGC<8623924@qq.com> # message auto-generated for no-merge-commit merge: !772 merge master into master costmodel refactoring Created-by: ZhangZGC Commit-by: ZhangZGC Merged-by: cann-robot Description: ## 描述 本次改动让costmodel以 host 模式编译运行,并复用当前主线 A2/A3 指令实现。 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/297 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!7721 个月前
feature: 适配A2A3场景的算子性能仿真 Co-authored-by: kay<kaywang@zju.edu.cn> # message auto-generated for no-merge-commit merge: !1004 merge feature_perf_sim_a2a3 into master feature: 适配A2A3场景的算子性能仿真 Created-by: XingkaiWang Commit-by: kay Merged-by: cann-robot Description: ## 描述 本 PR 新增 **A2/A3** 场景下的 perf-sim 算子性能仿真能力,用于在 CPU 侧对 PTO 算子进行指令级性能建模与可视化分析。该能力可以在不依赖真实 NPU 执行的情况下,输出算子的 pipeline 执行时序、同步依赖、总周期估计和各 pipeline 利用情况,便于开发阶段快速评估算子性能和定位瓶颈。 **主要能力包括:** 新增 perf-sim 运行框架,支持通过 LAUNCH_KERNEL 启动算子级性能仿真。 支持记录 PTO 指令、同步事件和跨 pipeline 依赖关系。 支持生成 Chrome Trace/Perfetto 可视化 JSON,用于查看 AIC/AIV pipeline 时序和依赖流。 支持生成 pipeline_summary.csv,按 core 和 AIC / AIV0 / AIV1 维度汇总 total cycles、active cycles 和各 pipeline busy cycles。 支持 1AIC-2AIV 架构建模,覆盖 A2/A3 上 AIC 与两个 AIV 的协同执行形态。 接入 FA 等复杂算子用例,用于验证多轮迭代、AIC/AIV 并发和多核场景下的仿真能力。 完善 trace track 命名与排序,提升 Perfetto 查看体验。 同时,本 PR 在 FA 场景中对 1C2V 同步关系、AIV0/AIV1 指令归属和多轮迭代依赖传播进行了校验和修正,确保 perf-sim 生成的执行形态与 CAModel 结果在大逻辑上保持一致。 **目前已知问题或尚未支持的功能:** 1. 部分PTO ISA指令精度较差导致整体E2E时间有所偏差(搬运类为主) 2. Scalar Pipeline无精细化建模,仅补充调用逻辑 3. 与计算具体值相关的操作后续需要结合CPU_SIM功能仿真开发,尚未支持 4. L2 Cache的缓存命中仅预留接口,尚未实现详细逻辑 ## 关联的Issue https://gitcode.com/cann/pto-isa/issues/386 ## 测试 已完成以下验证: 运行 fa_perf_sim 全量用例,覆盖单核、多核和长序列 FA 场景。 验证 perf-sim 可正常生成 JSON trace 和 pipeline_summary.csv。 使用 Perfetto 打开生成的 trace,确认 AIC/AIV pipeline 展示、track 排序和依赖关系可读。 与 CAModel trace 对比,确认 1AIC-2AIV 场景下 AIC/AIV 并发关系、AIV0/AIV1 对称性和多核负载形态基本一致。 检查 summary CSV,确认 AIC、AIV0、AIV1 分行统计符合 1C2V 架构预期。 ## 文档更新 新增和更新 perf-sim 相关文档,包括: perf-sim 中文用户使用指南 perf-sim 英文用户使用指南 perf-sim 实现逻辑说明文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/pto-isa!10049 天前