ascend-robot【docs】简介MD文件拆分、修改资料自检问题，包括链接、低错、图片不显示问题等问题

Ascend Operator

YAML参数说明（acjob任务）

如果是acjob任务，在配置YAML前，请先了解相关YAML参数说明，详细说明如下表所示。

每个acjob任务YAML中包含一些固定字段，例如apiVersion、kind等，如果想了解这些字段的详细说明请参见acjob关键字段说明。

表 1 YAML参数说明

参数	取值	说明
framework	mindspore pytorch tensorflow	-
jobID	当前MindIE Motor任务在集群中的唯一识别ID，用户可根据实际情况进行配置。	该参数仅支持在 Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器上使用。
app	表示当前MindIE Motor在Ascend Job任务中的角色，取值包括mindie-ms-controller、mindie-ms-coordinator、mindie-ms-server。	acjob的任务YAML同时包含jobID和app这2个字段时，Ascend Operator组件会自动传入环境变量MINDX_TASK_ID、APP_TYPE、MINDX_SERVER_IP及MINDX_SERVER_DOMAIN，并将其标识为MindIE推理任务。关于以上环境变量的详细说明请参见Ascend Operator注入的训练环境变量。该参数仅支持在 Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器上使用。
mind-cluster/scaling-rule: scaling-rule	标记扩缩容规则对应的ConfigMap名称。	仅支持MindIE Motor推理任务在 Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器上使用本参数。
mind-cluster/group-name: group0	标记扩缩容规则中对应的group名称。	仅支持MindIE Motor推理任务在 Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器上使用本参数。
podAffinity	表示逻辑超节点会往具有更多亲和性Pod的物理超节点调度。	仅支持MindIE Motor推理任务 Atlas 800I A3 超节点服务器上使用本参数。
sp-fit	超节点调度策略。 idlest：逻辑超节点会往更空闲的物理超节点调度。非idlest：逻辑超节点会优先占满物理超节点。	仅支持MindIE Motor推理任务 Atlas 800I A3 超节点服务器上使用本参数。
ring-controller.atlas	Atlas A2 训练系列产品、A200T A3 Box8 超节点服务器、Atlas 900 A3 SuperPoD 超节点、Atlas 800T A3 超节点服务器、Atlas 800I A3 超节点服务器取值为：ascend-{xxx}b Atlas 800 训练服务器，服务器（插 Atlas 300T 训练卡）取值为：ascend-910 （可选）Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD取值为：ascend-npu	标识任务使用的芯片的产品类型。需要在 ConfigMap和任务task中配置。
schedulerName	默认值为 “volcano”，用户需根据自身情况填写	Ascend Operator启用“gang”调度时所选择的调度器。
minAvailable	默认值为任务总副本数	Ascend Operator启用“gang”调度生效，且调度器为 Volcano时，任务运行总副本数。
queue	默认值为 “default”，用户需根据自身情况填写	Ascend Operator启用“gang”调度生效，且调度器为 Volcano时，任务所属队列。
（可选）successPolicy	默认值为空，若用户不填写该参数，则默认取空值。 AllWorkers	表明任务成功的前提。空值代表只需要一个 Pod成功，整个任务判定为成功。取值为 “AllWorkers”表示所有 Pod都成功，任务才判定为成功。
container.name	ascend	训练容器的名称必须是 “ascend”。
（可选）ports	若用户未进行设置，系统默认填写以下参数： name：ascendjob-port containerPort：2222	分布式训练集合通讯端口。“containerPort”用户可根据实际情况设置，若未进行设置则采用默认端口2222。
replicas	单机：1 分布式：N	N为任务副本数。
image	-	训练镜像名称，请根据实际修改。
（可选）host-arch	Arm环境：huawei-arm x86_64环境：huawei-x86	需要运行训练任务的节点架构，请根据实际修改。分布式任务中，请确保运行训练任务的节点架构相同。
huawei.com/schedule_policy	目前支持表3中的配置。	配置任务需要调度的AI芯片布局形态。Volcano会根据该字段选择合适的调度策略。若不配置，则根据accelerator-type选择调度策略。
sp-block	指定逻辑超节点芯片数量。单机时需要和任务请求的芯片数量一致。分布式时需要是节点芯片数量的整数倍，且任务总芯片数量是其整数倍。	指定sp-block字段，集群调度组件会在物理超节点上根据切分策略划分出逻辑超节点，用于训练任务的亲和性调度。若用户未指定该字段，Volcano 调度时会将此任务的逻辑超节点大小指定为任务配置的NPU总数。了解详细说明请参见灵衢总线设备节点网络说明。 [!NOTE] 说明仅支持在Atlas 900 A3 SuperPoD 超节点、Atlas 800T A3 超节点服务器、Atlas 800I A3 超节点服务器中使用该字段。使用了该字段后，不需要额外配置tor-affinity字段。 FAQ：任务申请的总芯片数量为32，sp-block设置为32可以正常训练，sp-block设置为16无法完成训练，训练容器报错提示初始化连接失败
tor-affinity	large-model-schema：大模型任务或填充任务 normal-schema：普通任务 null：不使用交换机亲和性调度 [!NOTE] 说明用户需要根据任务副本数，选择任务类型。任务副本数小于4为填充任务。任务副本数大于或等于4为大模型任务。普通任务不限制任务副本数。	默认值为null，表示不使用交换机亲和性调度。用户需要根据任务类型进行配置。 [!NOTE] 说明交换机亲和性调度1.0版本支持 Atlas 训练系列产品和 Atlas A2 训练系列产品；支持 PyTorch和 MindSpore框架。交换机亲和性调度2.0版本支持 Atlas A2 训练系列产品；支持 PyTorch框架。
pod-rescheduling	on：开启Pod级别重调度其他值或不使用该字段：关闭Pod级别重调度	Pod级别重调度，表示任务发生故障后，不会删除所有任务Pod，而是将发生故障的Pod进行删除，重新创建新Pod后进行重调度。 [!NOTE] 说明重调度模式默认为任务级重调度，若需要开启Pod级别重调度，需要新增该字段。 TensorFlow暂不支持Pod级别重调度。
recover-strategy	任务可用恢复策略。 retry：进程级在线恢复。 recover：进程级别重调度。 recover-in-place：进程级原地恢复。 elastic-training：弹性训练。 dump：保存临终遗言。 exit：退出训练	recover-strategy配置在任务YAML annotations下，取值为6种策略的随意组合，策略之间由逗号分割。
process-recover-enable	on：开启进程级别重调度及进程级在线恢复。进程级别重调度和优雅容错不能同时开启，若同时开启，断点续训将通过job级重调度恢复训练。 pause：暂时关闭进程级别重调度及进程级在线恢复。 off或不使用该字段：关闭进程级别重调度及进程级在线恢复。	Ascend Operator会根据用户配置的recover-strategy自动给任务打上process-recover-enable=on标签，无需用户手动指定。
subHealthyStrategy	ignore：忽略该亚健康节点，后续任务在亲和性调度上不优先调度该节点。 graceExit：不使用亚健康节点，并保存临终CKPT文件后，进行重调度，后续任务不会调度到该节点。 forceExit：不使用亚健康节点，不保存任务直接退出，进行重调度，后续任务不会调度到该节点。 hotSwitch：执行亚健康热切，拉起备份Pod后，暂停训练任务，并使用新节点重新拉起训练。默认取值为ignore。	节点状态为亚健康（SubHealthy）的节点的处理策略。 [!NOTE] 说明使用graceExit策略时，需保证任务开启了临终CKPT保存功能。 hotSwitch策略的使用约束请参见使用约束。 Verl强化学习任务只支持ignore和forceExit。
accelerator-type	Atlas 800 训练服务器（NPU满配）：module Atlas 800 训练服务器（NPU半配）：half 服务器（插 Atlas 300T 训练卡）：card Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元：module-{xxx}b-8 Atlas 200T A2 Box16 异构子框和 Atlas 200I A2 Box16 异构子框：module-{xxx}b-16 Atlas 900 A3 SuperPoD 超节点：module-a3-16-super-pod （可选）Atlas 350 标卡：350-Atlas-8、350-Atlas-16、350-Atlas-4p-8、350-Atlas-4p-16 （可选）Atlas 850 系列硬件产品：850-Atlas-8p-8、850-SuperPod-Atlas-8 （可选）Atlas 950 SuperPoD：950-SuperPod-Atlas-8	根据需要运行训练任务的节点类型，选取不同的值。如果节点是 Atlas 800 训练服务器（NPU满配），可以省略该标签。对于Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD，若使用pingmesh功能则此标签为必选。 [!NOTE] 说明下文的{xxx}即取“910”字符作为芯片型号数值。
huawei.com/Ascend910	Atlas 800 训练服务器（NPU满配）：单机单芯片任务：1 单机多芯片任务：2、4、8 分布式任务：1、2、4、8 Atlas 800 训练服务器（NPU半配）：单机单芯片任务：1 单机多芯片任务：2、4 分布式任务：1、2、4 服务器（插 Atlas 300T 训练卡）：单机单芯片任务：1 单机多芯片任务：2 分布式任务：2 Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元：单机单芯片任务：1 单机多芯片任务：2、3、4、5、6、7、8 分布式任务：1、2、3、4、5、6、7、8 Atlas 200T A2 Box16 异构子框和 Atlas 200I A2 Box16 异构子框：单机单芯片任务：1 单机多芯片任务：2、3、4、5、6、7、8、10、12、14、16 分布式任务：1、2、3、4、5、6、7、8、10、12、14、16 Atlas 900 A3 SuperPoD 超节点、A200T A3 Box8 超节点服务器、Atlas 800T A3 超节点服务器：单机单芯片任务：1 单机多芯片任务：2、4、6、8、10、12、14、16 分布式任务：2、4、6、8、10、12、14、16 针对 Atlas 900 A3 SuperPoD 超节点的逻辑超节点亲和任务：16 Atlas 350 标卡（无互联节点内8卡）：单机：1、2、3、4、5、6、7、8 分布式：1、2、3、4、5、6、7、8 Atlas 350 标卡（无互联节点内16卡）：单机：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16 分布式：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16 Atlas 350 标卡（4P mesh 8卡）：单机（满足亲和性）：1、2、3、4、8 单机（不保证亲和性）：5、6、7 分布式（满足亲和性）：1、2、3、4、8 分布式（不保证亲和性）：5、6、7 Atlas 350 标卡（4P mesh 16卡）：单机（满足亲和性）：1、2、3、4、8、12、16 单机（不保证亲和性）：5、6、7、9、10、11、13、14、15 分布式（满足亲和性）：1、2、3、4、8、12、16 分布式（不保证亲和性）：5、6、7、9、10、11、13、14、15 Atlas 850 系列硬件产品（普通集群）：单机：1、2、4、8 分布式：1、2、4、8 Atlas 850 系列硬件产品（超节点集群）：单机：1、2、4、8（sp-block参数取值与其保持一致）分布式：8（sp-block参数取值需为8或8的倍数，且能被任务所需总卡数整除，且不能大于物理超节点大小） Atlas 950 SuperPoD：单机：1、2、3、4、5、6、7、8（sp-block参数取值与其保持一致）分布式：8（sp-block参数取值需为8或8的倍数，且能被任务所需总卡数整除，且不能大于物理超节点大小）	请求的NPU数量，请根据实际修改。 [!NOTE] 说明 Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD需将参数名称修改为huawei.com/npu。
(.kind=="AscendJob").spec.replicaSpecs.{Master\|Scheduler\|Worker}.template.spec.containers[0].env[name==ASCEND_VISIBLE_DEVICES].valueFrom.fieldRef.fieldPath	取值为metadata.annotations['huawei.com/AscendXXX']，其中XXX表示芯片的型号，支持的取值为910，310和310P。取值需要和环境上实际的芯片类型保持一致。	Ascend Docker Runtime会获取该参数值，用于给容器挂载相应类型的NPU。 [!NOTE] 说明该参数只支持使用 Volcano调度器的整卡调度特性，使用静态vNPU调度和其他调度器的用户需要删除示例YAML中该参数的相关字段。 Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD需配置为metadata.annotations['huawei.com/npu']。
fault-scheduling	grace	配置任务采用优雅删除模式，并在过程中先优雅删除原 Pod，15分钟后若还未成功，使用强制删除原 Pod。进程级别重调度和进程级在线恢复场景，需将本参数配置为grace。
	force	配置任务采用强制删除模式，在过程中强制删除原 Pod。
	off	该任务不使用断点续训特性，K8s的maxRetry仍然生效。
	无（无fault-scheduling字段）
	其他值
fault-retry-times	0 < fault-retry-times	处理业务面故障，必须配置业务面无条件重试的次数。 [!NOTE] 说明使用无条件重试功能需保证训练进程异常时会导致容器异常退出，若容器未异常退出则无法成功重试。当前仅 Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元支持无条件重试功能。进行进程级恢复时，将会触发业务面故障，如需使用进程级恢复，必须配置此参数。
fault-retry-times	无（无fault-retry-times）或0	该任务不使用无条件重试功能，无法感知业务面故障，vcjob的maxRetry仍然生效。
backoffLimit	0 < backoffLimit	任务重调度次数。任务故障时，可以重调度的次数，当已经重调度次数与backoffLimit取值相同时，任务将不再进行重调度。 [!NOTE] 说明同时配置了backoffLimit和fault-retry-times参数时，当已经重调度次数与backoffLimit或fault-retry-times取值有一个相同时，将不再进行重调度。
backoffLimit	无（无backoffLimit）或backoffLimit ≤ 0	不限制总重调度次数。 [!NOTE] 说明若不配置backoffLimit，但是配置了fault-retry-times参数，则使用fault-retry-times的重调度次数。
restartPolicy	Never：从不重启 Always：总是重启 OnFailure：失败时重启 ExitCode：根据进程退出码决定是否重启Pod，错误码是1~127时不重启，128~255时重启Pod。 [!NOTE] 说明 vcjob类型的训练任务不支持ExitCode。	容器重启策略。当配置业务面故障无条件重试时，容器重启策略取值必须为 “Never”。
terminationGracePeriodSeconds	0 < terminationGracePeriodSeconds < grace-over-time参数取值	容器收到SIGTERM到被 K8s强制停止经历的时间，该时间需要大于0且小于volcano-v {version}.yaml文件中“grace-over-time”参数取值，同时还需要保证能够保存CKPT文件，请根据实际情况修改。具体说明请参考 K8s官网容器生命周期回调。 [!NOTE] 说明只有当fault-scheduling配置为grace时，该字段才生效；fault-scheduling配置为force时，该字段无效。
hostNetwork	true：使用HostIP创建Pod。 false：不使用HostIP创建Pod。	当集群规模较大（节点数量>1000时），推荐使用HostIP创建Pod。不传入此参数时，默认不使用HostIP创建Pod。 [!NOTE] 说明当HostNetwork取值为true时，若当前任务YAML挂载了RankTable文件路径，则可以通过在训练脚本中解析RankTable文件获取Pod的hostIP来实现建链。若任务YAML未挂载RankTable文件路径，则与原始保持一致，使用serviceIP来实现建链。

YAML参数说明（deploy任务或vcjob任务）

表 2 YAML参数说明

参数	取值	说明
minAvailable	单机：1 分布式：N	N为节点个数，Deployment类型的任务不需要该参数，该参数建议与replicas保持一致。
replicas	单机：1 分布式：N	N为任务副本数。
image	-	训练镜像名称，请根据实际修改（用户在制作镜像章节制作的镜像名称）。
（可选）host-arch	Arm环境：huawei-arm x86_64环境：huawei-x86	需要运行训练任务的节点架构，请根据实际修改。分布式任务中，请确保运行训练任务的节点架构相同。
huawei.com/schedule_policy	目前支持表3中的配置。	配置任务需要调度的AI芯片布局形态。Volcano会根据该字段选择合适的调度策略。若不配置，则根据accelerator-type选择调度策略。
sp-block	指定逻辑超节点芯片数量。单机时需要和任务请求的芯片数量一致。分布式时需要是节点芯片数量的整数倍，且任务总芯片数量是其整数倍。	指定sp-block字段，集群调度组件会在物理超节点上根据切分策略划分出逻辑超节点，用于训练任务的亲和性调度。若用户未指定该字段，Volcano 调度时会将此任务的逻辑超节点大小指定为任务配置的NPU总数。了解详细说明请参见灵衢总线设备节点网络说明。 [!NOTE] 说明仅支持在Atlas 900 A3 SuperPoD 超节点、Atlas 800T A3 超节点服务器、Atlas 800I A3 超节点服务器中使用该字段。使用了该字段后，不需要额外配置tor-affinity字段。 FAQ：任务申请的总芯片数量为32，sp-block设置为32可以正常训练，sp-block设置为16无法完成训练，训练容器报错提示初始化连接失败
tor-affinity	large-model-schema：大模型任务或填充任务 normal-schema：普通任务 null：不使用交换机亲和性调度 [!NOTE] 说明用户需要根据任务副本数，选择任务类型。任务副本数小于4为填充任务。任务副本数大于或等于4为大模型任务。普通任务不限制任务副本数。	默认值为null，表示不使用交换机亲和性调度。用户需要根据任务类型进行配置。 [!NOTE] 说明交换机亲和性调度1.0版本只支持 Atlas 训练系列产品和 Atlas A2 训练系列产品的 PyTorch和 MindSpore框架。交换机亲和性调度2.0版本只支持 Atlas A2 训练系列产品 PyTorch框架。
accelerator-type	根据所使用芯片类型不同，取值如下： Atlas 800 训练服务器（NPU满配）：module Atlas 800 训练服务器（NPU半配）：half Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元：module-{xxx}b-8 Atlas 200T A2 Box16 异构子框和 Atlas 200I A2 Box16 异构子框：module-{xxx}b-16 Atlas 900 A3 SuperPoD 超节点：module-a3-16-super-pod （可选）Atlas 350 标卡：350-Atlas-8、350-Atlas-16、350-Atlas-4p-8、350-Atlas-4p-16 （可选）Atlas 850 系列硬件产品：850-Atlas-8p-8、850-SuperPod-Atlas-8 （可选）Atlas 950 SuperPoD：950-SuperPod-Atlas-8	根据需要运行训练任务的节点类型，选取不同的值。如果节点是 Atlas 800 训练服务器（NPU满配），可以省略该标签。 [!NOTE] 说明下文的{xxx}即取“910”字符作为芯片型号数值。
huawei.com/Ascend910	根据所使用芯片类型不同，取值如下： Atlas 800 训练服务器（NPU满配）：单机单芯片：1 单机多芯片：2、4、8 分布式：1、2、4、8 Atlas 800 训练服务器（NPU半配）：单机单芯片：1 单机多芯片：2、4 分布式：1、2、4 Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元单机单芯片：1 单机多芯片：2、3、4、5、6、7、8 分布式：1、2、3、4、5、6、7、8 Atlas 200T A2 Box16 异构子框和 Atlas 200I A2 Box16 异构子框：单机单芯片：1 单机多芯片：2、3、4、5、6、7、8、10、12、14、16 分布式：1、2、3、4、5、6、7、8、10、12、14、16 Atlas 350 标卡（无互联节点内8卡）：单机：1、2、3、4、5、6、7、8 分布式：1、2、3、4、5、6、7、8 Atlas 350 标卡（无互联节点内16卡）：单机：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16 分布式：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16 Atlas 350 标卡（4P mesh 8卡）：单机（满足亲和性）：1、2、3、4、8 单机（不保证亲和性）：5、6、7 分布式（满足亲和性）：1、2、3、4、8 分布式（不保证亲和性）：5、6、7 Atlas 350 标卡（4P mesh 16卡）：单机（满足亲和性）：1、2、3、4、8、12、16 单机（不保证亲和性）：5、6、7、9、10、11、13、14、15 分布式（满足亲和性）：1、2、3、4、8、12、16 分布式（不保证亲和性）：5、6、7、9、10、11、13、14、15 Atlas 850 系列硬件产品（普通集群）：单机：1、2、4、8 分布式：1、2、4、8 Atlas 850 系列硬件产品（超节点集群）：单机：1、2、4、8（sp-block参数取值与其保持一致）分布式：8（sp-block参数取值需为8或8的倍数，且能被任务所需总卡数整除，且不能大于物理超节点大小） Atlas 950 SuperPoD：单机：1、2、3、4、5、6、7、8（sp-block参数取值与其保持一致）分布式：8（sp-block参数取值需为8或8的倍数，且能被任务所需总卡数整除，且不能大于物理超节点大小）	请求的NPU数量，请根据实际修改，请求整卡时不能再同时请求vNPU。 [!NOTE] 说明优雅容错模式支持 Atlas 800 训练服务器，且资源请求数量只能为4N、8N，N为训练节点数。优雅容错模式支持 Atlas 800T A2 训练服务器或 Atlas 900 A2 PoD 集群基础单元，且资源请求数量只能为8N，N为训练节点数。 Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD需将参数名称修改为huawei.com/npu。
ring-controller.atlas	Atlas A2 训练系列产品、A200T A3 Box8 超节点服务器、Atlas 900 A3 SuperPoD 超节点、Atlas 800T A3 超节点服务器取值为：ascend-{xxx}b Atlas 800 训练服务器，服务器（插 Atlas 300T 训练卡）取值为：ascend-910 （可选）Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD取值为：ascend-npu	用于标识任务使用的芯片的类型。需要在 ConfigMap和任务task中配置。
metadata.annotations['huawei.com/AscendXXX']	XXX表示芯片的型号，支持的取值为910，310和310P。取值需要和环境的实际芯片类型保持一致。	Ascend Docker Runtime会获取该参数值，用于给容器挂载相应类型的NPU。 [!NOTE] 说明 Atlas 350 标卡、Atlas 850 系列硬件产品、Atlas 950 SuperPoD需配置为metadata.annotations['huawei.com/npu']。
fault-scheduling	grace	配置任务采用优雅删除模式，并在过程中先优雅删除原 Pod，15分钟后若还未成功，使用强制删除原 Pod。进程级别重调度和进程级在线恢复场景，需将本参数配置为grace。
	force	配置任务采用强制删除模式，在过程中强制删除原 Pod。
	off	该任务不使用断点续训特性，K8s的maxRetry仍然生效。
	无（无fault-scheduling字段）
	其他值
recover-strategy	任务可用恢复策略。 retry：进程级在线恢复。 recover：进程级别重调度。 recover-in-place：进程级原地恢复。 dump：保存临终遗言。 exit：退出训练。	recover-strategy配置在任务YAML annotations下，取值为5种策略的随意组合，策略之间由逗号分割。
pod-rescheduling	on：开启Pod级别重调度其他值或不使用该字段：关闭Pod级别重调度	Pod级别重调度，表示任务发生故障后，不会删除所有任务Pod，而是将发生故障的Pod进行删除，重新创建新Pod后进行重调度。 [!NOTE] 说明重调度模式默认为任务级重调度，若需要开启Pod级别重调度，需要新增该字段。 TensorFlow暂不支持Pod级别重调度。
subHealthyStrategy	ignore：忽略该亚健康节点，后续任务在亲和性调度上不优先调度该节点。 graceExit：不使用亚健康节点，并保存临终CKPT文件后，进行重调度，后续任务不会调度到该节点。 forceExit：不使用亚健康节点，不保存任务直接退出，进行重调度，后续任务不会调度到该节点。默认取值为ignore。	节点状态为亚健康（SubHealthy）的节点的处理策略。 [!NOTE] 说明使用graceExit策略时，需保证任务开启了临终CKPT保存功能。
fault-retry-times	0 < fault-retry-times	处理业务面故障，必须配置业务面可无条件重试的次数。 [!NOTE] 说明使用无条件重试功能需保证训练进程异常时会导致容器异常退出，若容器未异常退出则无法成功重试。当前仅 Atlas 800T A2 训练服务器和 Atlas 900 A2 PoD 集群基础单元支持无条件重试功能。进行进程级恢复时，将会触发业务面故障，如需使用进程级恢复，必须配置此参数。
fault-retry-times	无（无fault-retry-times）或0	该任务不使用无条件重试功能，无法感知业务面故障，vcjob的maxRetry仍然生效。
policies	event，取值如下： PodFailed：Pod失败 PodEvicted：Pod被驱逐	Pod状态。与action字段搭配使用，表示当Pod处于某种状态时，Volcano的处理策略。默认值为PodEvicted。
policies	action，取值如下： RestartJob：重新启动训练任务。 Ignore：忽略。开源Volcano不做任何处理，由 Ascend-volcano-plugin插件进行处理。	Volcano对处于某种状态的Pod的处理策略。默认值为RestartJob。 [!NOTE] 说明开启Pod级别重调度需要删除policies及其子参数event和action。使用业务面故障无条件重试时（或同时使用Pod级别重调度和业务面故障无条件重试），需要将event配置为PodFailed；action配置为Ignore。如果不使用集群调度组件的 Volcano或者开源 Volcano没有集成 Ascend-volcano-plugin插件，需要参考使用Volcano和Ascend Operator组件场景下，业务面故障的任务所有Pod的Status全部变为Failed，任务无法触发无条件重试重调度修改开源Volcano代码。开源Volcano还提供了policies的其他取值，不建议用户修改为其他取值，否则可能影响断点续训功能的正常使用。
maxRetry	0< maxRetry	任务重调度次数。任务故障时，可以重调度的次数，当已经重调度次数与maxRetry取值相同时，任务将不再进行重调度。 [!NOTE] 说明同时配置了maxRetry和fault-retry-times参数时，当已经重调度次数与maxRetry或fault-retry-times取值有一个相同时，将不再进行重调度。
maxRetry	无（无maxRetry）或maxRetry等于0	不配置maxRetry或配置maxRetry取值为0时，系统默认进行3次重调度。
restartPolicy	Never：从不重启 Always：总是重启 OnFailure：失败时重启 ExitCode：根据进程退出码决定是否重启Pod，错误码是1~127时不重启，128~255时重启Pod。 [!NOTE] 说明 vcjob类型的训练任务不支持ExitCode。	容器重启策略。当配置业务面故障无条件重试时，容器重启策略取值必须为 “Never”。
terminationGracePeriodSeconds	0 < terminationGracePeriodSeconds < grace-over-time参数取值	容器收到SIGTERM到被 K8s强制停止经历的时间，该时间需要大于0且小于volcano-v {version}.yaml文件中“grace-over-time”参数取值，同时还需要保证能够保存CKPT文件，请根据实际情况修改。具体说明请参考 K8s官网容器生命周期回调。只有当fault-scheduling配置为grace时，该字段才生效；fault-scheduling配置为force时，该字段无效。

表 3 huawei.com/schedule_policy配置说明

配置	说明
chip4-node8	1个节点8张芯片，每4个芯片形成1个互联环。例如，Atlas 800 训练服务器（型号 9000）/Atlas 800 训练服务器（型号 9010）芯片的整模块场景/Atlas 350 标卡共8张卡，每4张卡通过UB扣板连接。
chip1-node2	1个节点2张芯片。例如，Atlas 300T 训练卡的插卡场景，1张卡最多插1个芯片，1个节点最多插2张卡。
chip4-node4	1个节点4张芯片，形成1个互联环。例如，Atlas 800 训练服务器（型号 9000）/Atlas 800 训练服务器（型号 9010）芯片的半配场景。
chip8-node8	1个节点8张卡，8张卡都在1个互联环上。例如，Atlas 800T A2 训练服务器 /Atlas 850 系列硬件产品。
chip8-node16	1个节点16张卡，每8张卡在1个互联环上。例如，Atlas 200T A2 Box16 异构子框。
chip2-node8	1个节点8张卡，每2张卡在1个互联环上。
chip2-node16	1个节点16张卡，每2张卡在1个互联环上。例如，Atlas 800T A3 超节点服务器。
chip2-node8-sp	1个节点8张卡，每2张卡在1个互联环上，多个服务器形成超节点。例如，Atlas 9000 A3 SuperPoD 集群算力系统。
chip2-node16-sp	1个节点16张卡，每2张卡在1个互联环上，多个服务器形成超节点。例如，Atlas 900 A3 SuperPoD 超节点。
chip4-node16	1个节点16张卡，每4张卡都在1个互联环上。例如，Atlas 350 标卡共16张卡，每4张卡通过UB扣板连接。
chip1-node8	1个节点8张卡，每张卡之间无互联。例如，Atlas 350 标卡共8张卡，每张卡之间无互联。
chip1-node16	1个节点16张卡，每张卡之间无互联。例如，Atlas 350 标卡共16张卡，每张卡之间无互联。
chip8-node8-sp	1个节点8张卡，8张卡都在1个互联环上，多个服务器形成超节点。例如，Atlas 850 系列硬件产品（超节点服务器）。
chip8-node8-ra64-sp	1个节点8张卡，8张卡都在1个互联环上，64个节点组成一个计算框，多个框形成超节点。例如，Atlas 950 SuperPoD。
chip1-softShareDev	软切分虚拟化专用调度策略。
multilevel	多级调度场景使用，多级调度的详细使用方法请参见多级调度。

rings-config-<任务名称>

表 4 rings-config-任务名称

字段名称	名称	作用	取值	备注
hccl.json	version	RankTable使用的格式版本	1.0	-
	server_count	任务使用的节点数量	整数类型	-
	server_list	任务使用的节点信息	-	-
	- server_id	AI Server标识，全局唯一	字符串	-
	- host_ip	AI Server的Host IP地址	字符串	-
	device	任务使用的芯片信息	-	-
	- device_id	任务使用的芯片的物理ID	字符串	-
	- device_ip	任务使用的芯片的IP地址	字符串	-
	- rank_id	任务使用的芯片的Rank号	字符串	-
version	-	任务使用hccl.json的版本	字符串	-