30c07d98创建于 2025年8月22日历史提交

cluster_time_compare_sumary 集群性能数据细粒度比对

背景与挑战

大集群场景涉及多个计算节点，数据量大，原有的单卡性能数据对比不能评估整体集群运行情况。

功能介绍

cluster_time_compare_sumary 提供了AI运行过程中集群维度的性能数据对比能力，包括计算、通信和内存拷贝等各部分的时间消耗，帮助用户找到性能瓶颈。

使用方法

# 首先执行cluster_time_summary分析能力,执行集群耗时细粒度拆解
msprof-analyze -m cluster_time_summary -d ./cluster_data
msprof-analyze -m cluster_time_summary -d ./base_cluster_data

# 执行cluster_time_compare_summary,传入两个拆解分析后的文件夹路径
msprof-analyze -m cluster_time_compare_summary -d ./cluster_data --bp ./base_cluster_data

参数说明：

-mcluster_time_compare_summary 使能集群耗时细粒度对比能力
-d集群性能数据文件夹路径
-bp标杆集群数据路径
其余参数：参考msprof-analyze调用参数指导,详见参数说明

输出数据：

存储位置：cluster_analysis_output/cluster_analysis.db
数据表名：ClusterTimeCompareSummary

字段说明：

字段名称	类型	说明
rank	INTEGER	卡号
step	INTEGER	迭代编号
{metrics}	REAL	当前集群耗时指标，与ClusterTimeSummary字段一致
{metrics}Base	REAL	基准集群的对应耗时
{metrics}Diff	REAL	耗时偏差值（当前集群-基准集群），正值表示当前集群更慢

备注：表中时间相关字段，统一使用微秒（us）

输出结果分析：

按*Diff字段排序找出最大差异项，找到劣化环节。