FAQ
-
Q:dyno CLI发送npu-monitor命令后没有数据上报?
-
A:npu-monitor 功能基于 msPTI 接口开发,如果没有数据上报,如果是 CANN 9.0.0 之前的版本,请先检查 LD_PRELOAD 是否已经正常设置了 libmspti.so 的路径,然后检查 dynolog 日志中是否正常接收到 dyno CLI 的RPC请求。
-
Q:dyno CLI发送采集命令后,无法采集到性能数据?
-
A:通常有以下几种情况,导致 msMonitor 采集数据失败,建议用户逐一排查:
-
dynolog daemon没有正常启动
解决方法:请检查 dynolog daemon 是否已经正常启动,当前用户 home 目录下是否生成 dynolog.sock 文件,没有请先启动 dynolog daemon 进程
-
没有设置 MSMONITOR_USE_DAEMON 环境变量
解决方法:请在启动训练或推理服务前,设置 MSMONITOR_USE_DAEMON 环境变量为1,开启 msMonitor 功能。
-
遗留的共享内存文件没有删除
解决方法:msMonitor 底层依赖昇腾 PyTorch 动态 Profiling 机制实现能力。在 Python 3.8 及以上环境中,工具会在
/dev/shm目录生成命名格式为DynamicProfileNpuShm+时间戳的二进制共享内存文件。 进程正常退出时,该文件会自动清理;若通过 pkill 强制终止进程,属于异常退出,相关资源无法自动释放。残留文件会导致短时间(<1h)内再次使用 msMonitor 时,出现数据采集异常。建议在使用 msMonitor 时,启动模型进程前,先检查/dev/shm目录,若存在历史残留的共享内存文件,请手动删除。
-