README
LD_PRELOAD=./build/libmspti_tracker.so python xxx
调优记录
1 250506调优记录: 数据尺度在5-8ms,调整dbscann的eps eps: 0.4 -> 0.04 window_size: 100 -> 20
0510 通信慢检测对象,
检测规则: 1 一个通信组内会有batchsendrecv, 目前考虑按照数据特征分开,再分别检测, 2 在收尾的慢通信对需要结合其他通信域的检测结果;
todo
1 算子下发检测算法优化 2 所有算子的检测配置文件更改 3 调测出rpm包
1 package name: sysTrace-failslow
安装部署
前置条件
支持的python版本:3.7+; failslow 依赖于 systrace 采集的数据通信算子数据,请先完成 训练任务的 通信算子采集; failslow 直接从本地目录读取通信算子数据,需要在配置文件中指定通信算子数据的路径
从本仓库源码安装运行(适用于开发者)
下载源码
git clone https://gitcode.com/openeuler/sysTrace.git
安装
工程./systrace目录下执行下面命令: python3 setup.py install
运行
systrace-failslow
数据分析
算子执行:3ms左右,计算慢导致的异常时7-8ms 算子下发: 表示算子下发到算子开始执行的时间 600ms左右 通信慢: sendrecv:几十ms到1200ms
新增npu资源指标采集
1 资源指标采集按照文件文件保存,每隔1小时重新建个文件 2 检测逻辑中默认取最新的文件数据