MindCluster

Zread     DeepWiki

最新消息

  • [2026.04.15]: 🚀 支持故障后处理策略配置
  • [2026.04.15]: 🚀 支持A2\A3设备的软切分
  • [2026.04.15]: 🚀 推理支持交换机亲和性
  • [2026.04.15]: 🚀 RoCE网络故障隔离和恢复机制增强
  • [2026.04.15]: 🚀 人工隔离芯片准确性增强
  • [2026.04.15]: 🚀 支持天工组网亲和性调度
  • [2026.04.15]: 🚀 支持隔离芯片自动解除隔离
  • [2026.04.15]: 🚀 支持任务调度异常原因统计
  • [2026.04.15]: 🚀 支持A2\A3设备的硬切分
  • [2026.04.15]: 🚀 npu-exporter支持根据文件上报自定义指标

简介

MindCluster(AI集群系统软件)是支持NPU(昇腾AI处理器)训练和推理硬件的深度学习组件,使能构建集群全流程运行,提供NPU集群作业调度、运维监测、故障恢复等功能。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindCluster开发深度学习平台。

版本说明

MindCluster版本配套详情请参考:版本配套详情

兼容性信息

MindCluster基础调度特性与断点续训特性支持的框架:Pytorch、MindSpore。

使用指南

MindCluster集群调度

MindCluster将以单台Atlas 800T A2 训练服务器(同时作为管理节点和计算节点)为例,指导开发者快速完成NodeD、Ascend Device Plugin、Ascend Docker Runtime、Volcano、ClusterD、Ascend Operator组件的安装及使用整卡调度特性快速下发训练任务。具体操作请参考:集群调度用户指南

MindCluster Ascend FaultDiag

MindCluster Ascend FaultDiag(故障诊断工具)主要功能如下:提供日志清洗和故障诊断功能,提取训练及推理过程相关日志的关键信息,并根据集群所有节点清洗后的关键信息,分析故障根因节点以及故障事件。具体操作请参考:使用指导

特性介绍

MindCluster具体特性介绍如下:

MindCluster集群调度

特性名称 介绍 Released
容器化支持特性 link
资源监测特性 link
虚拟化实例特性 link
基础调度特性 link
断点续训特性 link
一体机特性 link
MindIE Motor推理任务最佳实践 link
SGLang推理任务最佳实践 link
vLLM推理任务最佳实践 link

MindCluster Ascend FaultDiag

特性名称 介绍 Released
日志清洗与转储 link
故障诊断 link
单机故障诊断 link
超节点故障诊断 link
清洗业务流日志 link
根因节点清洗及诊断 link
故障事件清洗及诊断 link
自定义配置文件 link

FAQ

MindCluster集群调度相关FAQ请参见:FAQ

MindCluster Ascend FaultDiag相关FAQ请参见:FAQ

安全声明

MindCluster集群调度

  • 当前容器方式部署本组件,本组件的认证鉴权方式为ServiceAccount,该认证鉴权方式为ServiceAccount的token明文显示,建议用户自行进行安全加强。
  • 当前特权容器方式部署,该容器权限具有一定风险,建议用户自行进行安全加强。
  • 其他安全声明详见:安全声明
  • 通信矩阵详见:通信矩阵
  • 公网地址详见:公网地址

MindCluster Ascend FaultDiag

分支维护策略

版本分支的维护阶段如下:

状态 时间 说明
计划 1-3个月 计划特性
开发 3个月 开发新特性并修复问题,定期发布新版本
维护 3-12个月 常规分支维护3个月,长期支持分支维护12个月。对重大BUG进行修复,不合入新特性,并视BUG的影响发布补丁版本
生命周期终止(EOL) N/A 分支不再接受任何修改

版本维护策略

版本 维护策略 当前状态 发布日期 后续状态 EOL日期
master 长期支持 开发 在研分支,不发布 -
v26.0.0 常规分支 维护 2026-04-15 2026-07-15
v7.3.0 长期支持 维护 2026-01-13 2026-12-30
v7.2.RC1 常规分支 维护 2025-10-25 预计2026/1/25起进入无维护状态 2025-10-27
v7.1.RC1 常规分支 EOL 2025-07-24 2025-10-24
v7.0.RC1 常规分支 EOL 2025-04-27 2025-07-27
v6.0.0 长期支持 维护 2024-12-31 预计2025-12-31起进入无维护状态
v6.0.RC3 常规分支 EOL 2024-11-20 2025-02-20
v6.0.RC2 常规分支 EOL 2024-11-20 2025-02-20
v6.0.RC1 常规分支 EOL 2024-11-20 2025-02-20
v5.0.0 长期支持 EOL 2023-11-20 2024-11-20

免责声明

  • 本仓库代码中包含多个开发分支,这些分支可能包含未完成、实验性或未测试的功能。在正式发布前,这些分支不应被应用于任何生产环境或者依赖关键业务的项目中。请务必使用我们的正式发行版本,以确保代码的稳定性和安全性。 使用开发分支所导致的任何问题、损失或数据损坏,本项目及其贡献者概不负责。
  • 正式版本请参考release版本 https://gitcode.com/ascend/mind-cluster/releases

License

MindCluster以Apache 2.0许可证许可,对应许可证文本可查阅LICENSE文件

介绍MindCluster docs目录下的文档适用CC-BY 4.0许可证,具体请参见LICENSE文件

贡献声明

  • 贡献前,请先签署开放项目贡献者许可协议(CLA)
  • 如果您遇到bug,请提交issue
  • 如果您计划贡献bug-fixes,请提交Pull Requests,参见具体要求
  • 如果您计划贡献新特性、功能,请先创建issue与我们讨论。写明需求背景/目的,如何设计,对现有API等的影响。未经讨论提交PR可能会导致请求被拒绝,因为项目演进方向可能与您的想法存在偏差。
  • 更详细的贡献流程,请参考贡献指南

建议与交流

欢迎大家为社区做贡献。如果有任何疑问或建议,请提交issue,我们会尽快回复。感谢您的支持。