任务信息
job-summary-<任务名称>
表 1 job-summary-任务名称 ConfigMap字段说明
| 参数 | 说明 | 取值 |
|---|---|---|
| hccl.json | 任务使用的芯片通信信息。可转义为JSON格式,字段说明如下:
|
字符串 |
| job_id | 任务的K8s ID信息。 | 字符串 |
| operator |
|
字符串 |
| deleteTime | 任务被删除的时间。 | 字符串 |
| sharedTorIp | 任务使用的共享交换机信息。 | 字符串 |
| masterAddr | PyTorch训练时指定的MASTER_ADDR值。 | 字符串 |
| total | ConfigMap的个数。 | 字符串 |
| time | 任务开始时间。 | 字符串 |
| framework | 任务使用的框架。 | 字符串 |
| job_status | 任务状态,存在以下几种状态。
|
字符串 |
| job_name | 任务名称。 | 字符串 |
| cm_index | 当前ConfigMap的序号。 | 字符串 |
| sid | 用户自定义任务ID | 字符串 |
current-job-statistic
用于展示集群中当前任务的统计信息,详细信息记录在/var/log/mindx-dl/clusterd/event_job.log日志文件中。由于K8s的ConfigMap容量大小限制,最大支持统计集群任务数量约为1w条。当日志文件达到20M时,触发自动转储,最多保存5份转储日志,转储日志最长保留时间为40天。
| 参数 | 说明 |
|---|---|
| data | - |
| - ID | K8s集群分配的Job ID。 |
| - customID | 用户自定义的Job ID,如果内容为空则不展示。 |
| - cardNum | 任务使用的卡的数量,如果内容为空则不展示。 |
| - podFirstRunTime | 任务Pod第一次全部running的时间,如果内容为空则不展示。 |
| - stopTime | 任务Pod全部complete或者被强行删除的时间,如果内容为空则不展示。 |
| - podLastRunTime | 任务Pod上一次全部恢复running的时间,如果内容为空则不展示。 |
| - podLastFaultTime | 任务Pod上一次部分或者全部failed的时间,如果内容为空则不展示。 |
| - podFaultTimes | 任务故障导致Pod重调度的次数,如果次数为0则不展示。 |
| totalJob | 当前集群中的总任务数。 |
scheduling-exception-report
该ConfigMap位于cluster-system命名空间下。用于展示集群中调度异常的任务信息,帮助用户快速定位任务调度失败的原因。
表 7 scheduling-exception-report ConfigMap字段说明
| 参数 | 说明 | 取值 |
|---|---|---|
| <jobName>.<jobUID> | 任务异常信息的key,由任务名称和任务UID组成。 | 字符串 |
| - jobName | 任务名称。 | 字符串 |
| - jobType | 任务类型,例如vcjob、acjob等。 | 字符串 |
| - nameSpace | 任务所在的命名空间。 | 字符串 |
| - conditions | 任务异常条件详情。 | 对象 |
| -- status | 任务状态。
|
字符串 |
| -- reason | 异常原因,例如JobEnqueueFailed、JobValidateFailed、NodePredicateFailed、BatchOrderFailed、NotEnoughResources、PodPending、PodFailed、PgNotInitialized、JobNoInitialized等。 | 字符串 |
| -- message | 异常详细信息,包含故障描述和排查建议。 | 字符串 |