ReportState
|
必选
|
区分上报的训练状态类型:
- RS_NORMAL:正常状态。
- RS_RETRY:精度异常。
- RS_UCE:UCE错误。
- RS_UCE_CORRUPTED:片上内存MULTI BIT ECC故障。
- RS_HCCL_FAILED:HCCL重计算失败。
- RS_UNKNOWN:其他错误。
- RS_INIT_FINISH:在MindSpore框架中,ARF新启动的节点在训练进程完成初始化后抛出的异常。
- RS_PREREPAIR_FINISH:ARF新启动的节点抛出的异常。
- RS_STEP_FINISH:亚健康热切中step级暂停已经完成抛出的异常。
|
- RS_NORMAL.value:ttp_c2python_api.ReportState_RS_NORMAL。
- RS_RETRY.value:ttp_c2python_api.ReportState_RS_RETRY。
- RS_UCE.value:ttp_c2python_api.ReportState_RS_UCE。
- RS_UCE_CORRUPTED:
ttp_c2python_api.ReportState_RS_UCE_CORRUPTED。
- RS_HCCL_FAILED.value: ttp_c2python_api.ReportState_RS_HCCL_FAILED。
- RS_UNKNOWN.value:ttp_c2python_api.ReportState_RS_UNKNOWN。
- RS_INIT_FINISH:
ttp_c2python_api.ReportState_RS_INIT_FINISH。
- RS_PREREPAIR_FINISH.value:ttp_c2python_api.ReportState_RS_PREREPAIR_FINISH。
- RS_STEP_FINISH:
ttp_c2python_api.ReportState_RS_STEP_FINISH。
|