版本说明
版本配套说明
产品版本信息
Note
MindCluster 26.0版本规划:MindCluster 26.0.0、MindCluster 26.1.0、MindCluster 26.2.0和MindCluster 26.3.0。
相关产品版本配套说明
| 产品名称 | 版本 |
|---|---|
| Ascend HDK |
|
| CANN | 9.0.0 |
病毒扫描结果
病毒扫描通过。
版本兼容性说明
MindCluster各组件需要配套使用,请勿跨版本混用各组件。
表 1 软件版本兼容性说明
| MindCluster软件版本 | MindCluster待升级版本 | CANN版本兼容性 | Ascend HDK版本兼容性 | FrameworkPTAdapter版本兼容性 | MindSpore版本兼容性 |
|---|---|---|---|---|---|
| MindCluster 26.0.0 |
|
|
|
|
|
版本使用注意事项
无
26.0.0更新说明
新增特性
| 特性名称 | 特性描述 |
|---|---|
| MindIO ACP | 支持ACP&TFT能力兼容。 |
| MindIO TFT |
|
| MindCluster Ascend FaultDiag |
|
| MindCluster基础组件 |
|
关键特性变更
MindCluster基础组件:
- ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
- 支持集群维度下的反复故障芯片的自动强制隔离和自动释放。
- Atlas 350 标卡场景下:
- 任务申请资源“huawei.com/Ascend910”变更为“huawei.com/npu”。
- 底层dcmi接口调用变更为dcmiV2接口调用。
业务接口变更
| 特性名称 | 接口变更 |
|---|---|
| MindIO ACP | 无 |
| MindIO TFT | 新增tft_register_exception_handler:注册异常处理程序。 |
| MindCluster Ascend FaultDiag | 新增Ascend-faultdiag-toolkit工具相关接口,详细请参见接口描述。 |
| MindCluster基础组件 |
|
已解决的问题
- mindio processor等资源已释放且程序崩溃时,taskd agent无法退出,需增加退出兜底措施
- 训练结束后,taskd worker调用mspti_activity_flush_all方法时,报double free错误
- taskd manager并发读写map导致进程崩溃
- clusterd的pg cache更新不及时
- 强制要求mindie实例间的roce网络健康导致mindie任务调度失败
- 用户定义torch日志文件场景训练完成后Pod不退出
- 安装noded的前提下,集群规模>1024时会超过clusterd的grpc连接上限,导致其他连接无法接入
遗留问题
无
升级影响
升级过程对现行系统的影响
无
升级后对现行系统的影响
无
26.0.0版本配套文档
| 文档名称 | 内容简介 | 更新说明 |
|---|---|---|
| 《MindCluster 集群调度用户指南》 | 提供集群调度组件说明、特性原理和使用参考,包括各组件的安装部署、集成适配示例和API参考,以及部分调度方案的原理介绍参考。 | 新增软切分调度、多级调度等,其他变更详见《MindCluster 集群调度用户指南》。 |
| 《MindCluster 故障诊断用户指南》 | 提供日志采集、日志清洗与转储、故障诊断等功能的使用指导。 | 新增Atlas 350 标卡故障模式、Ascend-faultdiag-toolkit工具等,其他变更详见《MindCluster 故障诊断用户指南》。 |
漏洞修补列表
无