集群资源
ConfigMap说明
ClusterD启动后,会创建如下ConfigMap:
- cluster-info-node-cm,详细说明请参见表1。
- cluster-info-device-${m},详细说明请参见表2。m为从0开始递增的整数。集群规模每增加1000个节点,则会新增一个该ConfigMap文件。
- cluster-info-switch-${x},详细说明请参见表3。x为从0开始递增的整数。集群规模每增加2000个节点,则会新增一个该ConfigMap文件。
表 1 cluster-info-node-cm
| 参数 | 说明 |
|---|---|
| mindx-dl-nodeinfo-<kwok-node-0> | 前缀为固定的mindx-dl-nodeinfo,kwok-node-0是节点名称,方便定位故障的具体节点。 |
| NodeInfo | 节点维度的故障信息。 |
| FaultDevList | 节点故障设备列表。 |
| - DeviceType | 故障设备类型。 |
| - DeviceId | 故障设备ID。 |
| - FaultCode | 故障码,由英文和数组拼接而成的字符串,字符串表示故障码的十六进制。 |
| - FaultLevel | 故障处理等级。
|
| NodeStatus | 节点健康状态,由本节点故障处理等级最严重的设备决定。
|
表 2 cluster-info-device-${m}
| 参数 | 说明 |
|---|---|
| mindx-dl-deviceinfo-<kwok-node-0> | 前缀为固定的mindx-dl-deviceinfo,kwok-node-0是节点名称,用于定位故障的具体节点。 |
| huawei.com/Ascend910 |
|
| huawei.com/Ascend910-NetworkUnhealthy |
|
| huawei.com/Ascend910-Unhealthy |
|
| huawei.com/Ascend910-Fault |
|
| - fault_type | 故障类型。
|
| - npu_name | 故障的芯片名称,节点故障时为空。 |
- large_model_fault_level - fault_level - fault_handling |
故障处理类型,节点故障时取值为空。
[!NOTE] 说明
|
| - fault_code | 故障码,英文逗号拼接的字符串。 |
| - fault_time_and_level_map | 故障码、故障发生时间及故障处理等级。 |
| UpdateTime | 当前节点信息的更新时间,格式为时间戳,用于标识故障信息或设备状态的最新上报时间。 |
| CmName | 该ConfigMap的NAME,即该节点对应的配置在集群中的ConfigMap名称。 |
| SuperPodID | 超节点ID。 |
| RackID | 框ID。 |
| ServerIndex | 当前节点在超节点中的相对位置。
|
表 3 cluster-info-switch-${x}
| 参数 | 说明 |
|---|---|
| FaultCode | 当前节点的灵衢总线设备故障码列表。数组对象包含EventType、AssembledFaultCode、PeerPortDevice、PeerPortId、SwitchChipId、SwitchPortId、Severity、Assertion、AlarmRaisedTime等字段。 |
| -EventType | 告警ID。 |
| -AssembledFaultCode | 故障码。 |
| -PeerPortDevice | 对接设备类型。
|
| -PeerPortId | 对接设备ID。 |
| -SwitchChipId | 灵衢故障芯片ID。从0开始编号。 |
| -SwitchPortId | 灵衢故障端口ID。从0开始编号。 |
| -Severity | 故障等级。
|
| -Assertion | 事件类型。
|
| -AlarmRaisedTime | 故障/事件产生时间。 |
| FaultLevel | 当前节点故障处理等级。 取FaultCode中所有故障中等级最高的故障等级,取值包含:NotHandle、SubHealthFault、Separate和RestartRequest。 |
| UpdateTime | 故障上报刷新时间。 |
| NodeStatus | 当前节点健康状态。 对应FaultLevel取值,NotHandle:Healthy、SubHealthFault:SubHealthy、Separate:UnHealthy和RestartRequest:UnHealthy。 |
| FaultTimeAndLevelMap | 故障发生时间及故障处理等级列表。数组对象包含故障码、灵衢故障芯片ID、灵衢故障端口ID、fault_time和fault_level字段。键值为故障码、灵衢故障芯片ID、灵衢故障端口ID,由下划线连接组成。 |
| -fault_time | 故障发生时间。 |
| -fault_level | 故障处理等级。 |
statistic-fault-info
该ConfigMap位于用户创建的cluster-system命名空间下,Label为mc-statistic-fault=true。用于展示集群中的故障信息(当前仅展示公共故障信息)。
表 4 Data数据信息说明
| 参数 | 说明 |
|---|---|
| PublicFaults | 公共故障详情。故障数量过大时,不再更新本字段内容。以下各字段的详细说明请参见故障信息说明表。 |
| -<node name> | 故障节点名称 |
| -resource | 故障发送方 默认配置为CCAE、fd-online、pingmesh、Netmind。 |
| -devIds | 故障芯片物理ID |
| -faultId | 故障实例ID |
| -type | 故障类型
|
| -faultCode | 故障码 |
| -level | 故障级别
|
| -faultTime | 故障产生时间 |
| FaultNum | 故障数量 |
| -publicFaultNum | 所有节点的公共故障数量之和。 |
| Description | 公共故障数量过大时的提示信息。 |
Note
公共故障对外展示1M数据,大约4500条。超过4500条时,部分数据不再对外展示,ConfigMap中会新增Description内容进行提示,内部缓存正常运行。
super-pod-<super-pod-id>
该ConfigMap位于用户创建的cluster-system命名空间下,Label为app=pingmesh。
表 5 super-pod-<super-pod-id>
| 参数 | 说明 |
|---|---|
| app | NodeD识别ConfigMap所需的Label key,取值为pingmesh。 |
| superPodDevice | 超节点信息的key。 |
| SuperPodID | 超节点ID |
| NodeDeviceMap | 超节点中包含的所有节点信息。 |
| NodeName | 节点名称 |
| DeviceMap | 节点中的所有NPU信息,格式为physicID: superDeviceID。 |
fault-job-info
该ConfigMap位于用户创建的cluster-system命名空间下。用于展示集群中需要强制释放通信资源的故障任务信息。仅在Atlas 900 A3 SuperPoD 超节点进行进程级别重调度时生效。
表 6 fault-job-info
| 参数 | 说明 | 取值 |
|---|---|---|
| SdIds | 故障卡的SDID。 | 字符串序列 |
| NodeNames | 需要强制释放资源的节点名。 | 字符串序列 |
| FaultTimes | 发生故障的时间。 | 64位整数类型 |
| JobId | 任务的UID。 | 字符串 |
clusterd-manual-info-cm
该ConfigMap位于用户创建的cluster-system命名空间下。用于展示集群中人工隔离的芯片及故障信息。
示例如下:
Name: clusterd-manual-info-cm
Namespace: cluster-system
Labels: <none>
Annotations: <none>
Data
====
localhost.localdomain:
----
{"Total":["Ascend910-0","Ascend910-2","Ascend910-3"],"Detail":{"Ascend910-0":[{"FaultCode":"8C084E00","FaultLevel":"ManuallySeparateNPU","LastSeparateTime":1770811685650}],"Ascend910-2":[{"FaultCode":"8C084E00","FaultLevel":"ManuallySeparateNPU","LastSeparateTime":1770811685650}],"Ascend910-3":[{"FaultCode":"8C084E00","FaultLevel":"ManuallySeparateNPU","LastSeparateTime":1770811685650}]}}
Events: <none>
表 7 clusterd-manual-info-cm
| 参数 | 说明 |
|---|---|
| localhost.localdomain | 节点名称,例如示例中的localhost.localdomain。 |
| Total | 故障的芯片名称。 |
| Detail | 芯片故障信息。 |
| -Ascend910-0 | 芯片名称,例如示例中的Ascend910-0。 |
| -FaultCode | 故障码。 |
| -FaultLevel | 故障级别。 |
| -LastSeparateTime | 达到人工隔离频率时的最后一次故障时间。如果已经触发人工隔离芯片的故障,再一次达到了人工隔离频率,将刷新该时间。 |