任务信息

job-summary-<任务名称>

表 1 job-summary-任务名称 ConfigMap字段说明

参数	说明	取值
hccl.json	任务使用的芯片通信信息。可转义为JSON格式，字段说明如下： status：任务RankTable是否已经生成。 initializing：还在为任务分配设备，RankTable未生成。 complete：当RankTable生成后，状态会立即变为complete，同步出现server_list等其他字段。 server_list：任务设备分配情况。 device：记录NPU分配，NPU IP和rank_id信息。 device_id：NPU的设备ID。 device_ip：NPU的设备IP。 rank_id：NPU对应的训练Rank ID。 super_device_id：超节点内NPU的唯一标识。 server_id：AI Server标识，全局唯一。 server_name：节点名称。 server_sn：节点的SN号。需要保证设备的SN存在。若不存在，请联系华为技术支持。 host_ip：主机IP。 super_pod_id：超节点ID。 pod_name：Pod名称。 container_ids：Pod所有容器的ID映射表。 server_count：任务使用的节点数量。 version：版本信息。 total：ConfigMap个数。	字符串
job_id	任务的K8s ID信息。	字符串
operator	add：接收到添加任务命令后状态更新为add。 delete：接收到删除任务命令后状态更新为delete。	字符串
deleteTime	任务被删除的时间。	字符串
sharedTorIp	任务使用的共享交换机信息。	字符串
masterAddr	PyTorch训练时指定的MASTER_ADDR值。	字符串
total	ConfigMap的个数。	字符串
time	任务开始时间。	字符串
framework	任务使用的框架。	字符串
job_status	任务状态，存在以下几种状态。 pending running complete failed	字符串
job_name	任务名称。	字符串
cm_index	当前ConfigMap的序号。	字符串
sid	用户自定义任务ID	字符串

current-job-statistic

用于展示集群中当前任务的统计信息，详细信息记录在/var/log/mindx-dl/clusterd/event_job.log日志文件中。由于K8s的ConfigMap容量大小限制，最大支持统计集群任务数量约为1w条。当日志文件达到20M时，触发自动转储，最多保存5份转储日志，转储日志最长保留时间为40天。

参数	说明
data	-
- ID	K8s集群分配的Job ID。
- customID	用户自定义的Job ID，如果内容为空则不展示。
- cardNum	任务使用的卡的数量，如果内容为空则不展示。
- podFirstRunTime	任务Pod第一次全部running的时间，如果内容为空则不展示。
- stopTime	任务Pod全部complete或者被强行删除的时间，如果内容为空则不展示。
- podLastRunTime	任务Pod上一次全部恢复running的时间，如果内容为空则不展示。
- podLastFaultTime	任务Pod上一次部分或者全部failed的时间，如果内容为空则不展示。
- podFaultTimes	任务故障导致Pod重调度的次数，如果次数为0则不展示。
totalJob	当前集群中的总任务数。

scheduling-exception-report

该ConfigMap位于cluster-system命名空间下。用于展示集群中调度异常的任务信息，帮助用户快速定位任务调度失败的原因。

表 7 scheduling-exception-report ConfigMap字段说明

参数	说明	取值
<jobName>.<jobUID>	任务异常信息的key，由任务名称和任务UID组成。	字符串
- jobName	任务名称。	字符串
- jobType	任务类型，例如vcjob、acjob等。	字符串
- nameSpace	任务所在的命名空间。	字符串
- conditions	任务异常条件详情。	对象
-- status	任务状态。 JobEmptyStatus：任务状态为空。 JobInitialized：任务已初始化。 JobFailed：任务失败。 PodGroupCreated：PodGroup已创建。 PodGroupPending：PodGroup处于Pending状态。 PodGroupInqueue：PodGroup处于Inqueue状态。 PodGroupUnknown：PodGroup状态未知。 PodGroupRunning：PodGroup处于Running状态。	字符串
-- reason	异常原因，例如JobEnqueueFailed、JobValidateFailed、NodePredicateFailed、BatchOrderFailed、NotEnoughResources、PodPending、PodFailed、PgNotInitialized、JobNoInitialized等。	字符串
-- message	异常详细信息，包含故障描述和排查建议。	字符串