训练方案与特性说明


MindSpeed LLM包含分布式预训练、分布式微调等训练方案。

分布式预训练

基于MindSpeed LLM的实测预训练性能如下:

模型系列 实验模型 硬件信息 集群规模 吞吐(tokens/s)
Qwen3 8B Atlas 900 A3 SuperPoD 1x16 7617.002
30B Atlas 900 A2 PODc 2x8 2318.373
DeepSeek-V3 671B Atlas 900 A3 SuperPoD 32x16 914.97

预训练方案

方案类别 Mcore Released 贡献方
多样本集预训练 【Ascend】
多样本pack模式预训练

加速特性

场景 特性名称 Mcore Released 贡献方
SPTD并行 张量并行 【Ascend】
流水线并行
虚拟流水并行
序列并行
noop layers
长序列并行 Ascend Ring Attention 长序列并行
Ulysses 长序列并行
混合长序列并行
MOE MOE 专家并行
MOE 重排通信优化
显存优化 参数副本复用
分布式优化器
Swap Attention
重计算
Norm重计算
O2 BF16 Optimizer
融合算子 Flash attention
Flash attention variable length
Fused rmsnorm
Fused swiglu
Fused rotary position embedding
GMM
Matmul Add
通信优化 梯度reduce通算掩盖
Recompute in advance
权重all-gather通算掩盖
MC2
CoC
Ascend Gloo 存档落盘优化
优化器 Muon优化器

分布式微调

基于MindSpeed LLM的实测指令微调性能如下:

模型 硬件 集群 方案 序列 吞吐(tokens/s)
Qwen3-30B Atlas 900 A3 SuperPoD 8x16 全参 256K 3774.914
Qwen3-32B Atlas 900 A3 SuperPoD 8x16 全参 256K 1435.603
DeepSeek-V3-671B Atlas 900 A2 PODc 8x8 LoRA 4K 978.914

微调方案

方案名称 Mcore LoRA QLoRA Released 贡献方
单样本微调 【Ascend】
多样本pack微调 【Ascend】
多轮对话微调 【Ascend】

加速特性

场景 特性 Mcore Released 贡献方
LoRA微调 CCLoRA 【Ascend】
QLoRA微调 CCLoRA 【Ascend】
长序列微调 长序列CP 【Ascend】