训练方案与特性说明


MindSpeed LLM包含分布式预训练、分布式微调等训练方案。

分布式预训练

基于MindSpeed LLM的实测预训练性能如下:

模型系列 实验模型 硬件信息 集群规模 MFU
LLAMA2 LLAMA2-7B Atlas 900 A2 PODc 1x8 69.0%
LLAMA2-13B Atlas 900 A2 PODc 1x8 64.7%
LLAMA2-70B Atlas 900 A2 PODc 4x8 44.1%
Mixtral Mixtral-8x7B Atlas 900 A2 PODc 8x8 31.7%

预训练方案

方案类别 Mcore Released 贡献方
多样本集预训练 【Ascend】
多样本pack模式预训练

加速特性

场景 特性名称 Mcore Released 贡献方
SPTD并行 张量并行 【Ascend】
流水线并行
虚拟流水并行
序列并行
noop layers
长序列并行 Ascend Ring Attention 长序列并行
Ulysses 长序列并行
混合长序列并行
MOE MOE 专家并行
MOE 重排通信优化
显存优化 参数副本复用
分布式优化器
Swap Attention
重计算
Norm重计算
O2 BF16 Optimizer
融合算子 Flash attention
Flash attention variable length
Fused rmsnorm
Fused swiglu
Fused rotary position embedding
GMM
Matmul Add
通信优化 梯度reduce通算掩盖
Recompute in advance
权重all-gather通算掩盖
MC2
CoC
Ascend Gloo 存档落盘优化
优化器 Muon优化器

分布式微调

基于MindSpeed LLM的实测指令微调性能如下:

模型 硬件 集群 方案 序列 性能 MFU
Llama2-7B Atlas 900 A2 PODc 1x8 全参 dynamic 15.87 samples/s -
全参 16K 1.14 samples/s 37.4%
全参 32K 0.51 samples/s 48.4%
Llama2-13B Atlas 900 A2 PODc 1x8 全参 dynamic 50.4 samples/s -
Llama2-70B Atlas 900 A2 PODc 1x8 LoRA dynamic 15.2 samples/s -

微调方案

方案名称 Mcore LoRA QLoRA Released 贡献方
单样本微调 【Ascend】
多样本pack微调 【NAIE】
多轮对话微调 【Ascend】

加速特性

场景 特性 Mcore Released 贡献方
LoRA微调 CCLoRA 【Ascend】
QLoRA微调 CCLoRA 【NAIE】
长序列微调 长序列CP 【Ascend】