版本说明

版本配套说明

产品版本信息

产品名称

MindCluster

产品版本

26.0.0

版本类型

Release版本

Note

MindCluster 26.0版本规划:MindCluster 26.0.0、MindCluster 26.1.0、MindCluster 26.2.0和MindCluster 26.3.0。

相关产品版本配套说明

产品名称 版本
Ascend HDK
  • Atlas 350 标卡:1.0.RC1
  • 其他产品:26.0.RC1
CANN 9.0.0

病毒扫描结果

病毒扫描通过。

版本兼容性说明

MindCluster各组件需要配套使用,请勿跨版本混用各组件。

表 1 软件版本兼容性说明

MindCluster软件版本 MindCluster待升级版本 CANN版本兼容性 Ascend HDK版本兼容性 FrameworkPTAdapter版本兼容性 MindSpore版本兼容性
MindCluster 26.0.0
  • MindCluster 7.0.RC1及补丁版本
  • MindCluster 7.1.RC1及补丁版本
  • MindCluster 7.2.RC1及补丁版本
  • MindCluster 7.3.0及补丁版本
  • CANN 8.5.0及补丁版本
  • CANN 9.0.0及补丁版本
  • Ascend HDK 25.5.0及补丁版本
  • Ascend HDK 26.0.RC1及补丁版本
  • Ascend HDK 1.0.RC1及补丁版本
  • FrameworkPTAdapter 7.3.0及补丁版本
  • FrameworkPTAdapter 26.0.0及补丁版本
  • MindSpore 2.7.2及补丁版本
  • MindSpore 2.9.0及补丁版本

版本使用注意事项

26.0.0更新说明

新增特性

特性名称 特性描述
MindIO ACP 支持ACP&TFT能力兼容。
MindIO TFT
  • 支持ACP&TFT能力兼容。
  • 支持精度异常后按照指定Checkpoint步数在线恢复。
  • 支持讯飞Hulk框架的优化器差异化副本场景。
MindCluster Ascend FaultDiag
  • 故障诊断支持Atlas 350 标卡故障模式。
  • 新增Ascend-faultdiag-toolkit工具,支持掉卡故障诊断和基础设施链路诊断。
  • 不再支持故障模式库构建成二进制,直接开源故障模式库。
MindCluster基础组件
  • 业务面网络新增支持IPv6。
  • 支持基于任务维度配置可自愈的故障级别或具体故障码。
  • 支持Atlas A2 系列产品/Atlas A3 系列产品的软切分调度。
  • 支持Atlas A2 系列产品/Atlas A3 系列产品的硬切分调度。
  • 基于MindIE的大EP任务支持交换机亲和性调度。
  • ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
  • 后训练支持自愈型故障后处理与非自愈故障重调度。
  • 基于集群维度识别故障是否为硬件故障,反复发生的硬件故障自动强制隔离,避免反复造成任务中断。
  • 集群维度的自动强制隔离,以及节点维度的自动强制隔离,都支持配置自动释放时间。
  • 新增任意层级网络亲和性调度算法,适配Atlas 9000 A3 SuperPoD 集群算力系统。
  • 新增任务信息订阅接口SubscribeJobSummarySignalList,支持首次订阅返回历史任务信息。
  • 新增ConfigMap展示任务调度失败原因,方便快速定位。
  • NPU Exporter支持通过配置文件监听上报自定义指标。
  • NPU Exporter的多个NPU利用率获取方式从多个接口改为1个接口,避免数据不对应的情况。
  • ClusterD故障通知服务支持通过域名注册。
  • ClusterD作业信息订阅接口新增作业唯一标识符字段。
  • NPU Exporter支持Atlas 350 标卡的指标上报。
  • Ascend Docker Runtime支持Atlas 350 标卡。
  • Atlas 350 标卡支持亲和性调度、设备发现、Ranktable生成、故障重调度。
  • 支持Infer Operator通过自定义CRD管理推理任务。

关键特性变更

MindCluster基础组件:

  • ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
  • 支持集群维度下的反复故障芯片的自动强制隔离和自动释放。
  • Atlas 350 标卡场景下:
    • 任务申请资源“huawei.com/Ascend910”变更为“huawei.com/npu”。
    • 底层dcmi接口调用变更为dcmiV2接口调用。

业务接口变更

特性名称 接口变更
MindIO ACP
MindIO TFT 新增tft_register_exception_handler:注册异常处理程序。
MindCluster Ascend FaultDiag 新增Ascend-faultdiag-toolkit工具相关接口,详细请参见接口描述
MindCluster基础组件
  • 任务创建接口新增可自愈故障级别、故障码、自愈时长配置字段。
  • 任务创建接口新增软切分模式、AICore百分比、高带宽内存量配置字段。
  • ClusterD支持配置故障自动强制隔离的启动开关、触发频率、隔离时长。
  • Ascend Device Plugin新增自动强制隔离的隔离时长配置字段。
  • 支持多级网络拓扑配置,以及任务的多级网络亲和配置。
  • 新增任务信息订阅接口SubscribeJobSummarySignalList。
  • 新增任务调度异常原因查询接口。
  • 新增文件形式的自定义指标接口。
  • 优化NPU Exporter的NPU利用率接口的计算方式。
  • 新增Atlas 350 标卡的设备基础信息、故障码和芯片名称。

已解决的问题

  • mindio processor等资源已释放且程序崩溃时,taskd agent无法退出,需增加退出兜底措施
  • 训练结束后,taskd worker调用mspti_activity_flush_all方法时,报double free错误
  • taskd manager并发读写map导致进程崩溃
  • clusterd的pg cache更新不及时
  • 强制要求mindie实例间的roce网络健康导致mindie任务调度失败
  • 用户定义torch日志文件场景训练完成后Pod不退出
  • 安装noded的前提下,集群规模>1024时会超过clusterd的grpc连接上限,导致其他连接无法接入

遗留问题

升级影响

升级过程对现行系统的影响

升级后对现行系统的影响

26.0.0版本配套文档

文档名称 内容简介 更新说明
MindCluster 集群调度用户指南 提供集群调度组件说明、特性原理和使用参考,包括各组件的安装部署、集成适配示例和API参考,以及部分调度方案的原理介绍参考。 新增软切分调度、多级调度等,其他变更详见《MindCluster 集群调度用户指南》。
MindCluster 故障诊断用户指南 提供日志采集、日志清洗与转储、故障诊断等功能的使用指导。 新增Atlas 350 标卡故障模式、Ascend-faultdiag-toolkit工具等,其他变更详见《MindCluster 故障诊断用户指南》。

漏洞修补列表