0

0

ascend-robot【反合】【docs】修改算力切分测试问题、文档参考链接修改为最新配套版本、修改issue问题。

0a72795b创建于 9 天前历史提交

版本说明

版本配套说明

产品版本信息

产品名称	MindCluster
产品版本	26.0.0
版本类型	Release版本

Note

MindCluster 26.0版本规划：MindCluster 26.0.0、MindCluster 26.1.0、MindCluster 26.2.0和MindCluster 26.3.0。

相关产品版本配套说明

产品名称	版本
Ascend HDK	Atlas 350 标卡：1.0.RC1 其他产品：26.0.RC1
CANN	9.0.0

病毒扫描结果

病毒扫描通过。

版本兼容性说明

MindCluster各组件需要配套使用，请勿跨版本混用各组件。

表 1 软件版本兼容性说明

MindCluster软件版本	MindCluster待升级版本	CANN版本兼容性	Ascend HDK版本兼容性	FrameworkPTAdapter版本兼容性	MindSpore版本兼容性
MindCluster 26.0.0	MindCluster 7.0.RC1及补丁版本 MindCluster 7.1.RC1及补丁版本 MindCluster 7.2.RC1及补丁版本 MindCluster 7.3.0及补丁版本	CANN 8.5.0及补丁版本 CANN 9.0.0及补丁版本	Ascend HDK 25.5.0及补丁版本 Ascend HDK 26.0.RC1及补丁版本 Ascend HDK 1.0.RC1及补丁版本	FrameworkPTAdapter 7.3.0及补丁版本 FrameworkPTAdapter 26.0.0及补丁版本	MindSpore 2.7.2及补丁版本 MindSpore 2.9.0及补丁版本

版本使用注意事项

无

26.0.0更新说明

新增特性

特性名称	特性描述
MindIO ACP	支持ACP&TFT能力兼容。
MindIO TFT	支持ACP&TFT能力兼容。支持精度异常后按照指定Checkpoint步数在线恢复。支持讯飞Hulk框架的优化器差异化副本场景。
MindCluster Ascend FaultDiag	故障诊断支持Atlas 350 标卡故障模式。新增Ascend-faultdiag-toolkit工具，支持掉卡故障诊断和基础设施链路诊断。不再支持故障模式库构建成二进制，直接开源故障模式库。
MindCluster基础组件	业务面网络新增支持IPv6。支持基于任务维度配置可自愈的故障级别或具体故障码。支持Atlas A2 系列产品/Atlas A3 系列产品的软切分调度。支持Atlas A2 系列产品/Atlas A3 系列产品的硬切分调度。基于MindIE的大EP任务支持交换机亲和性调度。 ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。后训练支持自愈型故障后处理与非自愈故障重调度。基于集群维度识别故障是否为硬件故障，反复发生的硬件故障自动强制隔离，避免反复造成任务中断。集群维度的自动强制隔离，以及节点维度的自动强制隔离，都支持配置自动释放时间。新增任意层级网络亲和性调度算法，适配Atlas 9000 A3 SuperPoD 集群算力系统。新增任务信息订阅接口SubscribeJobSummarySignalList，支持首次订阅返回历史任务信息。新增ConfigMap展示任务调度失败原因，方便快速定位。 NPU Exporter支持通过配置文件监听上报自定义指标。 NPU Exporter的多个NPU利用率获取方式从多个接口改为1个接口，避免数据不对应的情况。 ClusterD故障通知服务支持通过域名注册。 ClusterD作业信息订阅接口新增作业唯一标识符字段。 NPU Exporter支持Atlas 350 标卡的指标上报。 Ascend Docker Runtime支持Atlas 350 标卡。 Atlas 350 标卡支持亲和性调度、设备发现、Ranktable生成、故障重调度。支持Infer Operator通过自定义CRD管理推理任务。

关键特性变更

MindCluster基础组件：

ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
支持集群维度下的反复故障芯片的自动强制隔离和自动释放。
Atlas 350 标卡场景下：
- 任务申请资源“huawei.com/Ascend910”变更为“huawei.com/npu”。
- 底层dcmi接口调用变更为dcmiV2接口调用。

业务接口变更

特性名称	接口变更
MindIO ACP	无
MindIO TFT	新增tft_register_exception_handler：注册异常处理程序。
MindCluster Ascend FaultDiag	新增Ascend-faultdiag-toolkit工具相关接口，详细请参见接口描述。
MindCluster基础组件	任务创建接口新增可自愈故障级别、故障码、自愈时长配置字段。任务创建接口新增软切分模式、AICore百分比、高带宽内存量配置字段。 ClusterD支持配置故障自动强制隔离的启动开关、触发频率、隔离时长。 Ascend Device Plugin新增自动强制隔离的隔离时长配置字段。支持多级网络拓扑配置，以及任务的多级网络亲和配置。新增任务信息订阅接口SubscribeJobSummarySignalList。新增任务调度异常原因查询接口。新增文件形式的自定义指标接口。优化NPU Exporter的NPU利用率接口的计算方式。新增Atlas 350 标卡的设备基础信息、故障码和芯片名称。

已解决的问题

mindio processor等资源已释放且程序崩溃时，taskd agent无法退出，需增加退出兜底措施
训练结束后，taskd worker调用mspti_activity_flush_all方法时，报double free错误
taskd manager并发读写map导致进程崩溃
clusterd的pg cache更新不及时
强制要求mindie实例间的roce网络健康导致mindie任务调度失败
用户定义torch日志文件场景训练完成后Pod不退出
安装noded的前提下，集群规模>1024时会超过clusterd的grpc连接上限，导致其他连接无法接入

遗留问题

无

升级影响

升级过程对现行系统的影响

无

升级后对现行系统的影响

无

26.0.0版本配套文档

文档名称	内容简介	更新说明
《MindCluster 集群调度用户指南》	提供集群调度组件说明、特性原理和使用参考，包括各组件的安装部署、集成适配示例和API参考，以及部分调度方案的原理介绍参考。	新增软切分调度、多级调度等，其他变更详见《MindCluster 集群调度用户指南》。
《MindCluster 故障诊断用户指南》	提供日志采集、日志清洗与转储、故障诊断等功能的使用指导。	新增Atlas 350 标卡故障模式、Ascend-faultdiag-toolkit工具等，其他变更详见《MindCluster 故障诊断用户指南》。

漏洞修补列表

无