MindStudio-Monitor:基于dynolog和MSPTI的集群性能监控工具项目

MindStudio-Monitor(msmonitor)是MindStudio全流程工具链推出的一站式在线监控工具,提供用户在集群场景性能监控定位端到端能力。

分支9Tags61

MindStudio Monitor

昇腾集群在线性能监测与动态采集工具

Ask DeepWiki Ask ZRead doc License Ascend

📢 最新消息

  • [2025.12.30] msMonitor开源

📌 简介

MindStudio Monitor(msMonitor)是面向昇腾集群场景的在线性能监测与动态采集工具,基于 dynologmsPTI 构建,支持 npu-monitornputraceMonitor API 等能力。

支持框架 Profiler:Ascend PyTorch Profiler | MindSpore Profiler

msMonitor

核心组件如下:

组件 作用 文档
Dynolog daemon 服务端守护进程,负责接收 dyno 请求并触发监测与采集。 dynolog
Dyno CLI 客户端命令行入口,用于下发 npu-monitornputrace 命令。 dyno
MSPTI Monitor 基于 msPTI 的采集模块,负责获取并上报性能数据。 -

🔍 目录结构

关键目录如下,详细目录介绍请参见 《项目目录》。

├── docs                    # 项目文档目录
│   └── zh                  # 中文文档目录
├── dynolog_npu             # dynolog_npu 模块代码目录
├── plugin                  # 插件模块代码目录
├── scripts                 # 构建、测试等脚本目录
│   ├── build.sh            # dynolog_npu 构建脚本
│   ├── run_st.sh           # 系统测试脚本
│   └── run_ut.sh           # 单元测试脚本
├── test                    # 测试代码目录
│   ├── st                  # 系统测试用例
│   └── ut                  # 单元测试用例
├── third_party             # 第三方依赖库
├── CONTRIBUTING.md         # 贡献指南
└── README.md               # 项目说明文档

📖 功能介绍

msMonitor 提供以下核心能力:

功能名称 功能简介 文档
npu-monitor 轻量常驻后台,持续监测关键算子耗时,适合在线观察性能波动。 npu-monitor
nputrace 动态触发框架、CANN 和 Device 侧性能数据采集与解析,无需中断任务运行。 nputrace
Monitor API 提供 Python 接口,采集计算类算子、通信类算子、API、Runtime API、Mstx 等性能数据。 Monitor API

Note

由于底层资源限制,npu-monitornputrace 不能同时开启。

🛠️ 安装指南

msMonitor 工具安装指南包含如下内容:

  • 下载软件包安装:适合直接部署使用,推荐优先采用。
  • 编译软件包安装:适合源码调试、二次开发与定制构建。
  • 升级、卸载与日志。

具体请参见《msMonitor 工具安装指南》。

🚀 快速入门

首次使用 msMonitor 时,推荐直接按下面这条主线完成从安装到采集的端到端体验。 更完整的安装说明请参见 《msMonitor 工具安装指南》。

  1. 选择匹配版本并下载安装包。

    根据 版本配套说明 选择与当前 CANNtorch_npuMindSpore 和 CPU 架构匹配的软件包,并下载到 Linux 环境。

  2. 校验并安装 msMonitor 软件包。

    # 校验下载包
    sha256sum x86_8.3.0.zip
    
    # 解压安装包
    mkdir x86
    unzip x86_8.3.0.zip -d x86
    cd x86
    
    # 安装 whl 包,需选择与当前 Python 版本匹配的文件
    pip install \
      mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl
    
    # 安装 dynolog,按服务器系统选择其一
    dpkg -i --force-overwrite dynolog*.deb
    # rpm -ivh dynolog*.rpm --nodeps
    
  3. 启动 dynolog daemon 进程。

    dynolog --enable-ipc-monitor --certs-dir /home/ssl_certs
    
  4. 配置环境变量并启动训练或推理任务。

    export MSMONITOR_USE_DAEMON=1
    export LD_PRELOAD=<CANN安装路径>/ascend-toolkit/latest/lib64/libmspti.so
    
    bash run_ai_task.sh
    
  5. 先使用 npu-monitor 观察关键算子耗时。

    dyno --certs-dir /home/ssl_certs npu-monitor \
      --npu-monitor-start --report-interval-s 30 \
      --mspti-activity-kind Kernel
    
  6. 发现耗时劣化后,关闭 npu-monitor 并触发 nputrace 采集详细数据。

    dyno --certs-dir /home/ssl_certs npu-monitor --npu-monitor-stop
    dyno --certs-dir /home/ssl_certs nputrace \
      --start-step 10 --iterations 2 --activities CPU,NPU \
      --analyse --data-simplification false \
      --log-file /tmp/profile_data
    
  7. 按需查看详细说明。

版本配套说明

msMonitor 由以下三个交付件组成:

交付件 说明
dyno dyno 客户端二进制文件
dynolog dynolog 服务端二进制文件
mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl MSPTI Monitor、IPC 等公共能力工具包

当前仓库维护的软件包版本如下,完整版本说明请参见《版本说明》。

版本 架构 发布日期 CANN torch_npu MindSpore 下载 校验码
8.3.0 aarch64 2025-12-29 8.3.RC1+ v7.3.0+ 2.7.2+ aarch64_8.3.0.zip 2c675ae346dfc1c70f5e9c7103d6f8c7e53be00dca28ed5f9cc577ac59e4bc44
8.3.0 x86 2025-12-29 8.3.RC1+ v7.3.0+ 2.7.2+ x86_8.3.0.zip 1a38cc141e67c50eb09ebdc757c1fd3ed54439f227459e71292b2d18bb78e7f0
8.1.0 aarch64 2025-07-11 8.1.RC1+ v7.1.0+ 2.7.0-rc1+ aarch64_8.1.0.zip ce136120c0288291cc0a7803b1efc8c8416c6105e9d54c17ccf2e2510869fada
8.1.0 x86 2025-07-11 8.1.RC1+ v7.1.0+ 2.7.0-rc1+ x86_8.1.0.zip 097d11c7994793b6389b19259269ceb3b6b7ac5ed77da3949b3f09da2103b7f2

📋 使用案例

msMonitor 在大模型训练&推理场景下的使用案例,请参见《msMonitor使用案例》。

📝 相关说明

联系我们

欢迎大家通过 Issues 反馈问题、需求和建议,我们会尽快响应。 若希望加入社区交流,也可以通过以下入口进一步了解 MindStudio 团队。

诚邀参与满意度问卷调查抽取惊喜好礼😎。

💬 技术交流群 📢 官方公众号 🤝 更多加入渠道

扫码直接加入技术交流群

扫码关注获取最新动态
欢迎扫码关注技术交流群跟官方公众号。这里是 MindStudio 用户与开发者最快捷的交流阵地:
快速提问: 与社区小伙伴即时探讨技术问题
掌握动态: 第一时间获取版本发布与功能更新通知
经验共享: 与其他开发者交流最佳实践
🛠️ 其他渠道
👉 昇腾助手:WeChat
👉 昇腾论坛:Website

🤝 致谢

msMonitor 由华为公司的下列部门联合贡献:

  • 昇腾计算 MindStudio 开发部

感谢来自社区的每一个 Pull Request,欢迎贡献 msMonitor。

关于 MindStudio 团队

华为 MindStudio 全流程开发工具链团队致力于提供端到端的昇腾 AI 应用开发解决方案,帮助开发者高效完成训练开发、推理开发和性能调优。 更多信息可访问:

项目介绍

MindStudio-Monitor(msmonitor)是MindStudio全流程工具链推出的一站式在线监控工具,提供用户在集群场景性能监控定位端到端能力。

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

C++70.44%
Python10.09%
Rust9.38%
Shell6.06%
CMake4.02%