Ascend Operator

rings-config-<任务名称>

表 1 rings-config-任务名称

字段名称

名称

作用

取值

备注

hccl.json

version

RankTable使用的格式版本

1.0

-

server_count

任务使用的节点数量

整数类型

-

server_list

任务使用的节点信息

-

-

- server_id

AI Server标识,全局唯一

字符串

-

- host_ip

AI Server的Host IP地址

字符串

-

device

任务使用的芯片信息

-

-

- device_id

任务使用的芯片的物理ID

字符串

-

- device_ip

任务使用的芯片的IP地址

字符串

-

- rank_id

任务使用的芯片的Rank号

字符串

-

version

-

任务使用hccl.json的版本

字符串

-

健康探针

Ascend Operator启动组件内的HTTP健康探针服务,用于K8s livenessProbe机制探测组件存活状态。

表 2 健康探针接口

项目 说明
路径 /
方法 GET
默认端口 11252
协议 HTTP(正确配置--tls-cert-file和--tls-private-key-file参数时为HTTPS)

表 3 响应说明

状态码 触发条件 说明
200 OK 组件正常运行 响应体为 ok
404 Not Found 请求路径非 / 探针只响应根路径
405 Method Not Allowed 请求方法非 GET K8s livenessProbe默认使用GET
503 Service Unavailable 自定义健康检查失败 响应体包含具体错误信息

K8s livenessProbe 配置示例:

livenessProbe:
  httpGet:
    path: /
    port: 11252
    scheme: HTTP
  initialDelaySeconds: 10
  periodSeconds: 10
  timeoutSeconds: 3
  failureThreshold: 3

探针参数说明详见启动参数表