Star165
155
代码介绍
代码
Issues110
Pull Requests78
流水线
Actions
讨论
Wiki
项目成员83
分析
项目设置
Star165
155
  1. mind-cluster
  2. /
  3. docs
  4. /
  5. zh
  6. /
  7. scheduling
  8. /
  9. 04_usage
  10. /
  11. resumable_training
  12. /
  13. menu_resumable_training.md
ascend-robotascend-robot【doc】新增验证章节
c70a1079创建于 3 天前历史提交

断点续训特性指南

  • 特性说明
  • 方案和原理
  • 准备集群环境
  • 配置
    • (可选)配置故障检测级别
    • 配置故障处理
    • 配置恢复加速
  • 通过命令行使用
  • 验证故障处理