Fork
0
代码
介绍
代码
Issues
Pull Requests
流水线
Actions
讨论
Wiki
项目成员
分析
项目设置
Fork
0
branch_v26.0.0
mind-cluster
/
docs
/
zh
/
scheduling
/
menu_scheduling_user_guide.md
下载
ascend-robot
【docs】简介MD文件拆分、修改资料自检问题,包括链接、低错、图片不显示问题等问题
0e102ee3
创建于
22 天前
历史提交
MindCluster 集群调度用户指南
简介
概述
组件介绍
特性介绍
支持的产品形态和OS清单
快速入门
安装部署
安装前必读
环境依赖
准备安装环境
安装部署
手动安装
获取软件包
安装前准备
Ascend Docker Runtime
NPU Exporter
Ascend Device Plugin
Volcano
ClusterD
Infer Operator
Ascend Operator
NodeD
Resilience Controller
Container Manager
使用工具安装
组件状态确认
升级
卸载
特性指南
容器化支持特性指南
使用前必读
(可选)配置自定义挂载内容
在Docker客户端使用
K8s集成Docker使用
在Containerd客户端使用
在K8s集成Containerd使用
资源监测特性指南
使用前必读
实现原理
通过Prometheus使用
通过Telegraf使用
虚拟化实例特性指南
基于HDK的虚拟化实例
特性说明
应用场景及方案
虚拟化模板
创建vNPU
销毁vNPU
挂载vNPU
基于vCANN-RT的虚拟化实例
特性说明
软切分虚拟化
调度特性指南
特性说明
亲和性调度
方案介绍
亲和性调度对接说明
亲和性调度说明
基于昇腾AI处理器的亲和性
基于节点的亲和性
昇腾AI处理器的调度算法说明
昇腾AI处理器的调度流程
整卡调度或静态vNPU调度(训练)
整卡调度或静态vNPU调度(推理)
多级调度
动态vNPU调度(推理)
软切分调度(推理)
弹性训练
推理卡故障重调度
推理卡故障恢复
断点续训特性指南
特性说明
方案和原理
准备K8s和共享存储
(可选)配置故障检测级别
配置故障处理
配置训练恢复
配置任务YAML
通过命令行使用
一体机特性指南
NPU硬件故障检测与恢复
配置推理业务故障恢复
MindIE Motor推理任务最佳实践
使用前必读
部署MindIE Motor
配置推理任务重调度
配置推理任务场景下的离线复位
配置推理任务的弹性扩缩容
配置推理任务交换机亲和性
SGLang推理任务最佳实践
使用前必读
部署基于OME的SGLang推理任务
配置推理任务实例重调度
vLLM推理任务最佳实践
使用前必读
部署vLLM推理任务
配置推理任务实例重调度
配置故障隔离
Infer Operator推理任务最佳实践
使用前必读
基于vLLM Proxy部署Infer Operator推理任务
基于MindIE PyMotor部署Infer Operator推理任务
API参考
NPU Exporter
NPU Exporter主页
Prometheus Metrics接口
Telegraf数据信息说明
自定义指标文件
Volcano
Ascend Device Plugin
NodeD
ClusterD
集群资源
任务信息
进程级恢复接口
公共故障接口
性能劣化故障接口
业务配置接口
故障服务接口
任务信息接口
借轨回切接口
在线压测接口
Ascend Operator
Elastic-Agent(断点续训相关接口)
TaskD
taskd.__version__
TaskD Worker接口
TaskD Agent接口
TaskD Proxy接口
TaskD Manager接口
断点续训相关接口
TaskD内部接口
返回码说明
Ascend Job
K8s原生对象说明
环境变量说明
hccl.json文件说明
参考
故障恢复加速
产品描述
安装部署
使用指导
安全管理与加固
API接口参考
附录
Checkpoint保存与加载优化
产品描述
安装部署
使用指导
安全管理与加固
API接口参考
告警参考
附录
常用操作
FAQ
安全加固
附录