MindStudio-Probe:基于昇腾的全场景精度调试工具链项目

针对昇腾提供的全场景精度工具链,帮助用户快速提高模型精度定位效率。

分支8Tags60
文件最后提交记录最后更新时间
【bugfix】xor_checksum 编译工程自动识别 NPU_ARCH Co-authored-by: Tjh-UKN<2559659915@qq.com> # message auto-generated for no-merge-commit merge: !755 merge fix/xor-checksum-auto-detect-npu-arch into master 【bugfix】xor_checksum 编译工程自动识别 NPU_ARCH Created-by: Tjh-UKN Commit-by: Tjh-UKN Merged-by: ascend-robot Description: # Pull Request ## 描述 - xor_checksum 编译工程新增 npu-smi 自动识别逻辑 - 按设备型号映射 NPU_ARCH:910B*/910 -> dav-2201,950* -> dav-3510 - 保留显式 NPU_ARCH 覆盖,并兼容 2201/3510 与 dav-2201/dav-3510 两种写法 - 当 npu-smi 不可用或无法识别时,维持默认 dav-2201 行为 ## 变更类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 代码风格更新 - [ ] 重构 - [x] 构建过程或辅助工具的变动 - [ ] 文档内容更新 ## 如何测试 - 使用临时 CMake 脚本验证 normalize_npu_arch 与 npu-smi 输出映射 - 覆盖 910B2、Ascend910、Ascend950A2 三类样例 - PR 创建后评论 compile 触发 CI ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新相关文档 - [x] 我在标题中使用了合适的类型标签 ## 自验证 ![image.png](https://raw.gitcode.com/user-images/assets/7898473/d1cfb597-d623-4961-8186-b9d1f4066472/image.png 'image.png') See merge request: Ascend/msprobe!7559 分钟前
【安全】修复构建脚本中部分不安全代码 Co-authored-by: Martin_M<maochen7@huawei.com> # message auto-generated for no-merge-commit merge: !727 merge master into master 【安全】修复构建脚本中部分不安全代码 Created-by: Martin_M Commit-by: Martin_M Merged-by: ascend-robot Description: 【安全】修复构建脚本中部分不安全代码 ## 背景 安全扫描中编译流程相关风险修复 ## 解决方案 1. 构建命令中的所有变量,使用""包裹,防止命令注入 2. 三方开源件下载时必须传入哈希值进行完整性校验 3. 编译时若存在no-check参数,会跳过网站SSL证书校验,此时打印明显的风险提示 4. 删除冗余构建指令 ## 自验证 ![image.png](https://raw.gitcode.com/user-images/assets/7898473/4a814e26-439c-4711-8fe1-441b6fa0f12f/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7898473/b28f7461-d10b-43a7-922d-ffeaaff386ab/image.png 'image.png') See merge request: Ascend/msprobe!7273 天前
【docs】 补充 xor summary_mode 说明 Co-authored-by: Tjh-UKN<2559659915@qq.com> # message auto-generated for no-merge-commit merge: !748 merge docs/xor-summary-mode into master 【docs】 补充 xor summary_mode 说明 Created-by: Tjh-UKN Commit-by: Tjh-UKN Merged-by: ascend-robot Description: # Pull Request ## 描述 补充 summary_mode="xor" 的用户侧说明,明确 XOR 校验值输出内容,并说明通过 --include-mod=xor_checksum 使用编译 C++ 加速算子可带来数倍性能提升。 补充 xor_checksum 加速算子的安装指引链接,用户可直接跳转到“安装基础工具包和xor_checksum加速算子”示例。 同步更新 PyTorch compare 说明:MD5模式支持 summary_mode="md5"summary_mode="xor"。 ## 变更类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 代码风格更新 - [ ] 重构 - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 关联的Issue 无 ## 如何测试 - 执行 git diff --check,确认文档格式无错误。 - 检查 summary_mode 参数说明、PyTorch 采集说明、安装指南和 PyTorch compare 说明中的新增内容。 ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [x] 我已更新了相关的文档 - [x] 我在标题中使用了合适的类型标签,如 feat:fix:docs: - [x] 我已经详细阅读了贡献指南(CONTRIBUTING.md) ## 其他信息 更新后评论 compile 触发编译 CI。 See merge request: Ascend/msprobe!74814 小时前
目录初始化 Co-authored-by: lichangwei<lichangwei4@huawei.com> 7 个月前
目录初始化 Co-authored-by: lichangwei<lichangwei4@huawei.com> 7 个月前
【模型分级可视化】调用命令前,增加安全校验 Co-authored-by: sun-cha<1299792067@qq.com> # message auto-generated for no-merge-commit merge: !722 merge safe/260528 into master 【模型分级可视化】调用命令前,增加安全校验 Created-by: sun-cha Commit-by: sun-cha Merged-by: ascend-robot Description: 【模型分级可视化】调用命令前,增加安全校验 See merge request: Ascend/msprobe!7223 天前
【feature】msprobe适配寄存器读清溢出检测模式 Co-authored-by: l30036321<lvkaimeng@huawei.com> # message auto-generated for no-merge-commit merge: !629 merge master into master 【feature】msprobe适配寄存器读清溢出检测模式 Created-by: lv-kaimeng Commit-by: l30036321;lv-kaimeng Merged-by: ascend-robot Description: nan check See merge request: Ascend/msprobe!62913 天前
【bugfix】Add npu device type check for int8 tensor fractal_nz format Co-authored-by: mnhdxnh<947098055@qq.com> # message auto-generated for no-merge-commit merge: !744 merge master into master 【bugfix】Add npu device type check for int8 tensor fractal_nz format Created-by: mnhdxnh Commit-by: mnhdxnh Merged-by: ascend-robot Description: fix: Add npu device type check for int8 tensor fractal_nz format See merge request: Ascend/msprobe!74419 小时前
【bugfix】cmp打包支持传入指定版本号 Co-authored-by: l30036321<lvkaimeng@huawei.com> # message auto-generated for no-merge-commit merge: !565 merge master into master 【bugfix】cmp打包支持传入指定版本号 Created-by: lv-kaimeng Commit-by: l30036321 Merged-by: ascend-robot Description: add arg version See merge request: Ascend/msprobe!5651 个月前
【ut】parse命令行ut补充 Co-authored-by: l30036321<lvkaimeng@gmail.com> # message auto-generated for no-merge-commit merge: !353 merge master into master 【ut】parse命令行ut补充 Created-by: lv-kaimeng Commit-by: l30036321 Merged-by: ascend-robot Description: 添加parse命令ut用例 See merge request: Ascend/msprobe!35313 小时前
【模型分级可视化】精度匹配算法更新 Co-authored-by: sun-cha<1299792067@qq.com> # message auto-generated for no-merge-commit merge: !568 merge feature/statistic into master 【模型分级可视化】精度匹配算法更新 Created-by: sun-cha Commit-by: sun-cha Merged-by: ascend-robot Description: refactor(match): 重构节点匹配计算逻辑并优化工具类方法 ✨ feat: 匹配配置文件增加分割线 See merge request: Ascend/msprobe!5681 个月前
【模型分级可视化】【tb_graph_ascend】 优化节点匹配逻辑和数据更新 Co-authored-by: sun-cha<1299792067@qq.com> # message auto-generated for no-merge-commit merge: !494 merge feature/tensor into master 【模型分级可视化】【tb_graph_ascend】 优化节点匹配逻辑和数据更新 Created-by: sun-cha Commit-by: sun-cha Merged-by: ascend-robot Description: feat(match): add tensor task matching support and refine task type handling fix: 修复匹配面板加载状态及字典合并语法兼容性问题 style(matchsider): add margin-top to desCheckbox Merge commit 'b198145cca0e603e3a3f2475e9cef189b80a2b99' into feature/tensor feat(match_nodes): add all task and refactor tensor calculation ... See merge request: Ascend/msprobe!4942 个月前
【feature】添加torch_npu融合算子 Co-authored-by: mnhdxnh<947098055@qq.com> # message auto-generated for no-merge-commit merge: !662 merge master into master 【feature】添加torch_npu融合算子 Created-by: mnhdxnh Commit-by: mnhdxnh Merged-by: ascend-robot Description: update See merge request: Ascend/msprobe!66213 天前
【资料】适配readdocs Co-authored-by: wugengjun<wugengjun1@huawei.com> # message auto-generated for no-merge-commit merge: !460 merge master_docs into master 【资料】适配readdocs Created-by: wugengjun Commit-by: wugengjun Merged-by: ascend-robot Description: 适配readdocs 效果如下 ![image.png](https://raw.gitcode.com/user-images/assets/7898473/8dc64eec-a743-4319-b147-ff0804993ced/image.png 'image.png') See merge request: Ascend/msprobe!4602 个月前
【feature】msProbe支持ATB数据dump-4 Co-authored-by: jiangchaoj<chaojiang_j@163.com> 4 个月前
docs: 资料低错修改 Co-authored-by: cai-weiwei1989<734267852@qq.com> # message auto-generated for no-merge-commit merge: !540 merge master into master docs: 资料低错修改 Created-by: cai-weiwei1989 Commit-by: cai-weiwei1989 Merged-by: ascend-robot Description: docs: 资料低错修改 1、CONTRIBUTING.md跳转问题修改 2、README.md、docs/index.md、修改并统一建议与交流的样式 3、docs/zh/accuracy_compare/offlline_data_compare_instruct.md删除仅8.5.0版本支持的约束 4、docs/zh/msprobe_install_guide.md修改CANN参考链接 5、其他md文档修改docs的ci检查问题 See merge request: Ascend/msprobe!5401 个月前
添加license Co-authored-by: wugengjun<451676383@qq.com> 5 个月前
【feature】msprobe add compare Co-authored-by: ylw1234<lwying007@126.com> 7 个月前
feat:Support comparison of actual hyperparameter configurations during verl training. Co-authored-by: mm_abc<mulinhong@huawei.com> # message auto-generated for no-merge-commit merge: !694 merge master into master feat:Support comparison of actual hyperparameter configurations during verl training. Created-by: mm_abc Commit-by: mm_abc Merged-by: ascend-robot Description: feat:添加verl超参对比 - 在verl日志中提取配置文件信息并保存为congfig文件 - 对比真实过程中配置文件中的超参,并将对比结果保存到hyper_params_compare.csv文件中 - 更新相关文档 See merge request: Ascend/msprobe!6941 天前
docs: 英文资料合入 Co-authored-by: cai-weiwei1989<734267852@qq.com> # message auto-generated for no-merge-commit merge: !574 merge master into master docs: 英文资料合入 Created-by: cai-weiwei1989 Commit-by: cai-weiwei1989 Merged-by: ascend-robot Description: docs: 英文资料合入 See merge request: Ascend/msprobe!5746 天前
【bugfix】xor_checksum 编译工程自动识别 NPU_ARCH Co-authored-by: Tjh-UKN<2559659915@qq.com> # message auto-generated for no-merge-commit merge: !755 merge fix/xor-checksum-auto-detect-npu-arch into master 【bugfix】xor_checksum 编译工程自动识别 NPU_ARCH Created-by: Tjh-UKN Commit-by: Tjh-UKN Merged-by: ascend-robot Description: # Pull Request ## 描述 - xor_checksum 编译工程新增 npu-smi 自动识别逻辑 - 按设备型号映射 NPU_ARCH:910B*/910 -> dav-2201,950* -> dav-3510 - 保留显式 NPU_ARCH 覆盖,并兼容 2201/3510 与 dav-2201/dav-3510 两种写法 - 当 npu-smi 不可用或无法识别时,维持默认 dav-2201 行为 ## 变更类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 代码风格更新 - [ ] 重构 - [x] 构建过程或辅助工具的变动 - [ ] 文档内容更新 ## 如何测试 - 使用临时 CMake 脚本验证 normalize_npu_arch 与 npu-smi 输出映射 - 覆盖 910B2、Ascend910、Ascend950A2 三类样例 - PR 创建后评论 compile 触发 CI ## 核对清单 - [x] 我的代码遵循了项目的代码风格 - [x] 我已对代码进行了自测 - [ ] 我已更新相关文档 - [x] 我在标题中使用了合适的类型标签 ## 自验证 ![image.png](https://raw.gitcode.com/user-images/assets/7898473/d1cfb597-d623-4961-8186-b9d1f4066472/image.png 'image.png') See merge request: Ascend/msprobe!7559 分钟前
[feat]Device MD5构建工程 Co-authored-by: Tjh-UKN<2559659915@qq.com> # message auto-generated for no-merge-commit merge: !711 merge md5 into master [feat]Device MD5构建工程 Created-by: Tjh-UKN Commit-by: Tjh-UKN Merged-by: ascend-robot Description: 背景:MD5计算需要host同步,现在提供device上计算MD5的算子,加速MD5计算 自验证:https://www.yuque.com/taejohnson/tzgbbf/cbai414pbcpgr9mc See merge request: Ascend/msprobe!7111 天前

MindStudio Probe

🚀 昇腾 AI 全场景精度调试利器

Docs License Version Ascend

📢 最新消息

[2026.03.28]:msprobe仓库ADump模块日落下线通知

[2026.03.20]:上线大模型训练精度定位指南大模型推理精度定位指南常用框架工具使能指南

[2025.12.31]:MindStudio Probe精度调试工具全面开源。

📌 简介

MindStudio Probe(MindStudio精度调试工具,msProbe)是针对昇腾提供的全场景精度工具链,专为模型开发的精度调试环节设计,可显著提升用户定位模型精度问题的效率。

🔍 目录结构

关键目录如下,详细介绍参见项目目录

MindStudio-probe
├── ccsrc                         # C/C++源码目录
├── cmake                        # 存放解析C化部分cmake文件
├── docs                         # 文档目录
├── examples                     # 工具配置样例存放目录
├── output                       # 交付件生成目录
├── plugins                      # 插件类代码总入口
├── python                       # Python源码目录
├── scripts                      # 存放安装卸载升级脚本
├── test                         # 测试代码目录
├── setup.py                     # 端到端打包构建脚本
├── README.md                    # 整体仓代码说明
└── LICENSE                      # LICENSE文件

📝 版本说明

版本 支持PyTorch版本 支持MindSpore版本 支持Python版本 支持CANN版本
26.0.0(在研版本) 2.1/2.2/2.5/2.6/2.7/2.8/2.9 2.4.0/2.5.0/2.6.0/2.7.1 3.8-3.12 大于等于 CANN 8.3.RC1
26.0.0-alpha.2 2.1/2.2/2.5/2.6/2.7/2.8/2.9 2.4.0/2.5.0/2.6.0/2.7.1 3.8-3.12 大于等于 CANN 8.3.RC1
26.0.0-alpha.1 2.1/2.2/2.5/2.6/2.7/2.8 2.4.0/2.5.0/2.6.0/2.7.1 3.8-3.11 大于等于 CANN 8.3.RC1

🛠️ 环境部署

安装msProbe工具,具体请参见《msProbe工具安装指南》。

🚀 快速入门

msProbe工具快速入门,通过一个可执行样例,完成msProbe工具的精度数据采集和精度比对功能的快速上手。具体请参见《PyTorch场景精度调试工具快速入门》或《MindSpore场景精度调试工具快速入门》。

📖 功能介绍

使用场景 子模式/细分场景 功能项 功能说明 参考文档
vLLM推理 Eager/图模式 数据采集 完成msProbe精度数据采集操作 数据采集
数据比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题
请参考分级可视化构图比对或精度比对
分级可视化构图比对
精度比对
torchair 数据采集 通过set_ge_dump_config接口完成精度数据采集操作 数据采集
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
通用场景 推理异常检测 获取vLLM推理输出,感知异常问题 推理异常检测
SGLang推理 eager模式 数据采集 完成msProbe精度数据采集操作 数据采集
数据比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 分级可视化构图比对
精度比对
ATB推理 - 数据采集 通过在ATB模型运行前,加载ATB dump模块的方式,实现对ATB模型运行过程中的精度数据的采集 数据采集
精度比对 将ATB dump的精度数据进行精度比对,进而定位精度问题 精度比对
数据转换 将ATB dump的精度数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 数据转换
离线模型推理 - 数据采集 完成msProbe精度数据采集操作 数据采集
精度比对 提供一键式离线模型比对功能,仅需输入模型即可完成比对,无需提前采集数据,快速输出结果 精度比对
离线模型数据精度比对 提供离线模型数据比对功能,输入离线模型的dump数据进行精度比对 离线模型数据精度比对
数据转换 将离线模型的dump数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 数据转换
PyTorch训练 - 训练前配置检查 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 训练前配置检查
verl超参比对 verl训练过程中或结束后,比对两台不同服务器上训练日志中采集到的真实超参配置,辅助用户高效比对真实超参值配置,加速定位因配置差异所引发的训练精度问题 verl超参比对
数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
精度预检 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 精度预检
分级可视化构图比对 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 分级可视化构图比对
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
训练状态监测 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 训练状态监测
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对
整网首个溢出节点分析 多rank场景下通过dump数据找到首个出现Nan或Inf的节点 整网首个溢出节点分析
趋势可视化 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 趋势可视化
MindSpore训练 - 训练前配置检查 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 训练前配置检查
数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
精度预检 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 精度预检
分级可视化构图比对 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 分级可视化构图比对
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
训练状态监测 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 训练状态监测
溢出检测与解析 溢出检测用于采集溢出API或模块的精度数据,而溢出解析则是通过对溢出数据的分析,进一步判断是否为正常溢出
推荐直接使用数据采集功能采集统计量信息,检测溢出问题,具体请参见数据采集
溢出检测与解析
数据采集
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对
趋势可视化 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 趋势可视化
MSAdapter场景 - 数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对

📚 补充材料

💬 FAQ

FAQ汇总了在使用msProbe工具过程中可能遇到的问题,具体请参见FAQ

📝 相关说明

💬 建议与交流

欢迎大家为社区做贡献。如果有任何疑问或建议,请提交Issues,我们会尽快回复。感谢您的支持。

💬 技术交流群 📢 官方公众号 🤝 更多加入渠道

扫码直接加入技术交流群

扫码关注获取最新动态
欢迎扫码关注技术交流群跟官方公众号。这里是 MindStudio 用户与开发者最快捷的交流阵地:
快速提问: 与社区小伙伴即时探讨技术问题
掌握动态: 第一时间获取版本发布与功能更新通知
经验共享: 与其他开发者交流最佳实践
🛠️ 其他渠道
👉 昇腾助手:WeChat
👉 昇腾论坛:Website

🤝 致谢

msProbe由华为公司的下列部门联合贡献:

  • 昇腾计算MindStudio开发部
  • 分布式并行计算实验室

感谢来自社区的每一个PR,欢迎贡献msProbe!

项目介绍

针对昇腾提供的全场景精度工具链,帮助用户快速提高模型精度定位效率。

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Python88.02%
C++5.66%
TSX2.47%
TypeScript1.77%
Shell0.86%