| experiment(task-book): 新增 msprof 性能采集四种方式实操示例 Co-authored-by: imaginationhh<921918760@qq.com> # message auto-generated for no-merge-commit merge: !279 merge demo-msprof-pr into master experiment(task-book): 新增 msprof 性能采集四种方式实操示例 Created-by: imaginationhh Commit-by: imaginationhh Merged-by: cann-robot Description: ## 描述 新增 msprof 性能采集工具的实操示例,放在 experiment/task-book/msprof_experience_demo/。 用最简 TinyMLP (4 层 Linear+GELU, 输入 [32,1024]) 作统一负载,演示昇腾 NPU 上四种 msprof 采集方式: - **01_cmdline**: msprof 命令行黑盒采集 (零侵入) - **02_api_AscendC**: AscendC 自定义算子核函数直调 + 采集 - **03_api_pyAcl**: pyACL 加载 .om 离线模型推理 + 采集 - **04_pyTorch**: torch_npu.profiler API 白盒插桩采集 四种方式的脚本均可实跑复现;为避免多份数据基准不一致,**性能数据只保留 PyTorch API (04) 一份**作为示例 (perf-data 含 op_statistic / op_summary PMU / step_trace 等可读结果)。每个子目录 README 含「选型指南」「输入输出说明」「如何用到你的模型」。shell 脚本通过 ASCEND_HOME_PATH 自动定位 CANN 环境,不依赖个人机器路径。 ## 关联的Issue 无 ## 测试 四种方式均在 Atlas A2 (910B3) + CANN 9.1.0 + torch_npu 2.7.1 环境实跑验证: - 01/04 采集出 op_statistic (MatMulV2 占比 ~78%) - 02 AscendC Add 算子编译并采集到 AI Core PMU - 03 pyACL 完成 ONNX→ATC→om→推理全链路 - 04 step_trace 显示典型 host bound (Computing:Free ≈ 1:60) ## 文档更新 新增总 README + 4 个子目录 README + perf-data/README,含目录结构、msprof 参数说明、性能数据表。 ## 类型标签 - [x] 📝 文档更新 - [x] ❓ 其他,请描述:新增 task-book 实操示例 (示例代码 + 实采性能数据) See merge request: cann/oam-tools!279 | 19 天前 |