cluster_time_compare_sumary 集群性能数据细粒度比对
背景与挑战
大集群场景涉及多个计算节点,数据量大,原有的单卡性能数据对比不能评估整体集群运行情况。
功能介绍
cluster_time_compare_sumary 提供了AI运行过程中集群维度的性能数据对比能力,包括计算、通信和内存拷贝等各部分的时间消耗,帮助用户找到性能瓶颈。
使用方法
# 首先执行cluster_time_summary分析能力,执行集群耗时细粒度拆解
msprof-analyze -m cluster_time_summary -d ./cluster_data
msprof-analyze -m cluster_time_summary -d ./base_cluster_data
# 执行cluster_time_compare_summary,传入两个拆解分析后的文件夹路径
msprof-analyze -m cluster_time_compare_summary -d ./cluster_data --bp ./base_cluster_data
参数说明:
-mcluster_time_compare_summary 使能集群耗时细粒度对比能力-d集群性能数据文件夹路径-bp标杆集群数据路径- 其余参数:参考msprof-analyze调用参数指导,详见参数说明
输出数据:
- 存储位置:cluster_analysis_output/cluster_analysis.db
- 数据表名:ClusterTimeCompareSummary
字段说明:
| 字段名称 | 类型 | 说明 |
|---|---|---|
| rank | INTEGER | 卡号 |
| step | INTEGER | 迭代编号 |
| {metrics} | REAL | 当前集群耗时指标,与ClusterTimeSummary字段一致 |
| {metrics}Base | REAL | 基准集群的对应耗时 |
| {metrics}Diff | REAL | 耗时偏差值(当前集群-基准集群),正值表示当前集群更慢 |
备注:表中时间相关字段,统一使用微秒(us)
输出结果分析:
- 按*Diff字段排序找出最大差异项,找到劣化环节。