认识sysTrace

简介

sysTrace 是一款应用于 AI 训练任务的性能监控与故障诊断工具。在 AI 训练过程中,训练任务故障会导致训练成本浪费,主要业务痛点如下:

  • AI 训练性能故障缺乏常态化监控、检测能力
  • Host bound 引发的 AI 任务慢、卡故障缺乏全栈跟踪能力

sysTrace 支持以下功能:

  • 采集 torch_npu 层的 Python 函数调用栈
  • 采集 CANN 层的内存持有情况,判断是否发生 HBM OOM 故障
  • 采集 MSPTI 的通信算子下发/执行,判断是否发生算子慢的情况,从而定位到慢卡
  • 采集 oncpu/offcpu 事件,判断 AI 训练中是否存在其他进程抢占 CPU 导致训练慢的问题

sysTrace 使用流程依次是:数据采集、数据落盘、数据分析、数据转换与可视化