MindCluster 组件代码仓
MindCluster
最新消息
- [2026.04.15]: 🚀 支持故障后处理策略配置
- [2026.04.15]: 🚀 支持A2\A3设备的软切分
- [2026.04.15]: 🚀 推理支持交换机亲和性
- [2026.04.15]: 🚀 RoCE网络故障隔离和恢复机制增强
- [2026.04.15]: 🚀 人工隔离芯片准确性增强
- [2026.04.15]: 🚀 支持天工组网亲和性调度
- [2026.04.15]: 🚀 支持隔离芯片自动解除隔离
- [2026.04.15]: 🚀 支持任务调度异常原因统计
- [2026.04.15]: 🚀 支持A2\A3设备的硬切分
- [2026.04.15]: 🚀 npu-exporter支持根据文件上报自定义指标
简介
MindCluster(AI集群系统软件)是支持NPU(昇腾AI处理器)训练和推理硬件的深度学习组件,使能构建集群全流程运行,提供NPU集群作业调度、运维监测、故障恢复等功能。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindCluster开发深度学习平台。
版本说明
MindCluster版本配套详情请参考:版本配套详情
兼容性信息
MindCluster基础调度特性与断点续训特性支持的框架:Pytorch、MindSpore。
使用指南
MindCluster集群调度
MindCluster将以单台Atlas 800T A2 训练服务器(同时作为管理节点和计算节点)为例,指导开发者快速完成NodeD、Ascend Device Plugin、Ascend Docker Runtime、Volcano、ClusterD、Ascend Operator组件的安装及使用整卡调度特性快速下发训练任务。具体操作请参考:集群调度用户指南。
MindCluster Ascend FaultDiag
MindCluster Ascend FaultDiag(故障诊断工具)主要功能如下:提供日志清洗和故障诊断功能,提取训练及推理过程相关日志的关键信息,并根据集群所有节点清洗后的关键信息,分析故障根因节点以及故障事件。具体操作请参考:使用指导。
特性介绍
MindCluster具体特性介绍如下:
MindCluster集群调度
| 特性名称 | 介绍 | Released |
|---|---|---|
| 容器化支持特性 | link | ✅ |
| 资源监测特性 | link | ✅ |
| 虚拟化实例特性 | link | ✅ |
| 基础调度特性 | link | ✅ |
| 断点续训特性 | link | ✅ |
| 一体机特性 | link | ✅ |
| MindIE Motor推理任务最佳实践 | link | ✅ |
| SGLang推理任务最佳实践 | link | ✅ |
| vLLM推理任务最佳实践 | link | ✅ |
MindCluster Ascend FaultDiag
| 特性名称 | 介绍 | Released |
|---|---|---|
| 日志清洗与转储 | link | ✅ |
| 故障诊断 | link | ✅ |
| 单机故障诊断 | link | ✅ |
| 超节点故障诊断 | link | ✅ |
| 清洗业务流日志 | link | ✅ |
| 根因节点清洗及诊断 | link | ✅ |
| 故障事件清洗及诊断 | link | ✅ |
| 自定义配置文件 | link | ✅ |
FAQ
MindCluster集群调度相关FAQ请参见:FAQ。
MindCluster Ascend FaultDiag相关FAQ请参见:FAQ。
安全声明
MindCluster集群调度
- 当前容器方式部署本组件,本组件的认证鉴权方式为ServiceAccount,该认证鉴权方式为ServiceAccount的token明文显示,建议用户自行进行安全加强。
- 当前特权容器方式部署,该容器权限具有一定风险,建议用户自行进行安全加强。
- 其他安全声明详见:安全声明
- 通信矩阵详见:通信矩阵
- 公网地址详见:公网地址
MindCluster Ascend FaultDiag
分支维护策略
版本分支的维护阶段如下:
| 状态 | 时间 | 说明 |
|---|---|---|
| 计划 | 1-3个月 | 计划特性 |
| 开发 | 3个月 | 开发新特性并修复问题,定期发布新版本 |
| 维护 | 3-12个月 | 常规分支维护3个月,长期支持分支维护12个月。对重大BUG进行修复,不合入新特性,并视BUG的影响发布补丁版本 |
| 生命周期终止(EOL) | N/A | 分支不再接受任何修改 |
版本维护策略
| 版本 | 维护策略 | 当前状态 | 发布日期 | 后续状态 | EOL日期 |
|---|---|---|---|---|---|
| master | 长期支持 | 开发 | 在研分支,不发布 | - | |
| v26.0.0 | 常规分支 | 维护 | 2026-04-15 | 2026-07-15 | |
| v7.3.0 | 长期支持 | 维护 | 2026-01-13 | 2026-12-30 | |
| v7.2.RC1 | 常规分支 | 维护 | 2025-10-25 | 预计2026/1/25起进入无维护状态 | 2025-10-27 |
| v7.1.RC1 | 常规分支 | EOL | 2025-07-24 | 2025-10-24 | |
| v7.0.RC1 | 常规分支 | EOL | 2025-04-27 | 2025-07-27 | |
| v6.0.0 | 长期支持 | 维护 | 2024-12-31 | 预计2025-12-31起进入无维护状态 | |
| v6.0.RC3 | 常规分支 | EOL | 2024-11-20 | 2025-02-20 | |
| v6.0.RC2 | 常规分支 | EOL | 2024-11-20 | 2025-02-20 | |
| v6.0.RC1 | 常规分支 | EOL | 2024-11-20 | 2025-02-20 | |
| v5.0.0 | 长期支持 | EOL | 2023-11-20 | 2024-11-20 |
免责声明
- 本仓库代码中包含多个开发分支,这些分支可能包含未完成、实验性或未测试的功能。在正式发布前,这些分支不应被应用于任何生产环境或者依赖关键业务的项目中。请务必使用我们的正式发行版本,以确保代码的稳定性和安全性。 使用开发分支所导致的任何问题、损失或数据损坏,本项目及其贡献者概不负责。
- 正式版本请参考release版本 https://gitcode.com/ascend/mind-cluster/releases
License
MindCluster以Apache 2.0许可证许可,对应许可证文本可查阅LICENSE文件。
介绍MindCluster docs目录下的文档适用CC-BY 4.0许可证,具体请参见LICENSE文件。
贡献声明
- 贡献前,请先签署开放项目贡献者许可协议(CLA)。
- 如果您遇到bug,请提交issue。
- 如果您计划贡献bug-fixes,请提交Pull Requests,参见具体要求。
- 如果您计划贡献新特性、功能,请先创建issue与我们讨论。写明需求背景/目的,如何设计,对现有API等的影响。未经讨论提交PR可能会导致请求被拒绝,因为项目演进方向可能与您的想法存在偏差。
- 更详细的贡献流程,请参考贡献指南。
建议与交流
欢迎大家为社区做贡献。如果有任何疑问或建议,请提交issue,我们会尽快回复。感谢您的支持。