Star164
153
代码介绍
代码
Issues114
Pull Requests78
流水线
Actions
讨论
Wiki
项目成员82
分析
项目设置
Star164
153
  1. mind-cluster
  2. /
  3. docs
  4. /
  5. zh
  6. /
  7. scheduling
  8. /
  9. usage
  10. /
  11. resumable_training
  12. /
  13. menu_resumable_training.md
ascend-robotascend-robot【docs】拆分集群调度MD文件;修改版本说明书评审意见;修改集群调度资料评审问题;修改资料格式问题,主要是增加加粗标记和没有导航栏问题;修改产品名称
9d4a8a74创建于 4月23日历史提交

断点续训特性指南

  • 特性说明
  • 方案和原理
  • 准备K8s和共享存储
  • (可选)配置故障检测级别
  • 配置故障处理
  • 配置训练恢复
  • 配置任务YAML
  • 通过命令行使用