Star
165
Fork
154
代码
介绍
代码
Issues
117
Pull Requests
79
流水线
Actions
讨论
Wiki
项目成员
83
分析
项目设置
Star
165
Fork
154
master
mind-cluster
/
docs
/
zh
/
scheduling
/
menu_scheduling_user_guide.md
下载
ascend-robot
【docs】增加增加docs/zh仓下的README;修改issue问题;将开发者指南放在API参考前面
ff1ee262
创建于
22 小时前
历史提交
MindCluster 集群调度用户指南
简介
概述
组件介绍
特性介绍
支持的产品形态和OS清单
快速入门
安装部署
安装前必读
环境依赖
安装部署
使用helm安装(推荐)
手动安装
使用工具安装
组件状态确认
升级
使用helm升级(推荐)
手动升级
卸载
使用helm卸载(推荐)
手动卸载
特性指南
容器化支持特性指南
使用前必读
(可选)配置自定义挂载内容
在Docker客户端使用
在Containerd客户端使用
资源监测特性指南
使用前必读
实现原理
通过Prometheus使用
通过Telegraf使用
虚拟化实例特性指南
基于HDK的虚拟化实例
特性说明
应用场景及方案
虚拟化模板
静态vNPU调度
创建vNPU
挂载vNPU(静态虚拟化)
销毁vNPU
动态vNPU调度
基于vCANN-RT的虚拟化实例
特性说明
软切分调度(推理)
调度特性指南
特性说明
亲和性调度
方案介绍
亲和性调度对接说明
亲和性调度说明
基于昇腾AI处理器的亲和性
基于节点的亲和性
昇腾AI处理器的调度算法说明
昇腾AI处理器的调度流程
整卡调度
多级调度
推理卡故障重调度
推理卡故障恢复
断点续训特性指南
特性说明
方案和原理
准备集群环境
配置
(可选)配置故障检测级别
配置故障处理
配置恢复加速
通过命令行使用
验证故障处理
一体机特性指南
NPU硬件故障检测与恢复
配置推理业务故障恢复
MindIE Motor推理任务最佳实践
使用前必读
部署MindIE Motor
配置推理任务重调度
配置推理任务场景下的离线复位
配置推理任务的弹性扩缩容
配置推理任务交换机亲和性
SGLang推理任务最佳实践
使用前必读
部署基于OME的SGLang推理任务
配置推理任务实例重调度
vLLM推理任务最佳实践
使用前必读
部署vLLM推理任务
配置推理任务实例重调度
配置故障隔离
Infer Operator推理任务最佳实践
使用前必读
基于vLLM Proxy部署Infer Operator推理任务
基于MindIE PyMotor部署Infer Operator推理任务
配置推理任务优先级调度
配置推理任务实例级重调度
开发者指南
安装部署
手动安装部署
获取软件包
安装前准备
Ascend Docker Runtime
NPU Exporter
Ascend Device Plugin
Volcano
ClusterD
Infer Operator
Ascend Operator
NodeD
Resilience Controller
Container Manager
手动升级
手动卸载
自定义指标开发
DP热复位插件开发
DP故障发现插件开发
公共故障上报
API参考
NPU Exporter
NPU Exporter主页
Prometheus Metrics接口
Telegraf数据信息说明
自定义指标文件
健康探针接口
Volcano
Ascend Device Plugin
NodeD
ClusterD
集群资源
任务信息
进程级恢复接口
公共故障接口
性能劣化故障接口
业务配置接口
故障服务接口
任务信息接口
借轨回切接口
在线压测接口
健康探针接口
Ascend Operator
Elastic-Agent(断点续训相关接口)
TaskD
taskd.__version__
TaskD Worker接口
TaskD Agent接口
TaskD Proxy接口
TaskD Manager接口
断点续训相关接口
TaskD内部接口
返回码说明
Ascend Job
MindIO
MindIO TFT接口
MindIO ACP接口
Infer Operator
K8s原生对象说明
环境变量说明
hccl.json文件说明
参考
故障恢复加速
产品描述
安装部署
使用指导
安全管理与加固
API接口参考
附录
Checkpoint保存与加载优化
产品描述
安装部署
使用指导
安全管理与加固
API接口参考
告警参考
附录
常用操作
FAQ
安全加固
附录
弹性训练