训练方案与特性说明

MindSpeed LLM包含分布式预训练、分布式微调等训练方案。

分布式预训练

基于MindSpeed LLM的实测预训练性能如下：

方案类别	Mcore	Released	贡献方
多样本集预训练	✅	✅	【Ascend】
多样本pack模式预训练	✅	❌	【Ascend】

场景	特性名称	Mcore	Released	贡献方
SPTD并行	张量并行	✅	✅	【Ascend】
	流水线并行	✅	✅
	虚拟流水并行	✅	✅
	序列并行	✅	✅
	noop layers	✅	✅
长序列并行	Ascend Ring Attention 长序列并行	✅	✅
	Ulysses 长序列并行	✅	✅
	混合长序列并行	✅	✅
MOE	MOE 专家并行	✅	✅
MOE	MOE 重排通信优化	✅	✅
显存优化	参数副本复用	✅	✅
	分布式优化器	✅	✅
	Swap Attention	✅	✅
	重计算	✅	✅
	Norm重计算	✅	✅
	O2 BF16 Optimizer	✅	❌
融合算子	Flash attention	✅	✅
	Flash attention variable length	✅	✅
	Fused rmsnorm	✅	✅
	Fused swiglu	✅	✅
	Fused rotary position embedding	✅	✅
	GMM	✅	✅
	Matmul Add	✅	✅
通信优化	梯度reduce通算掩盖	✅	✅
	Recompute in advance	✅	✅
	权重all-gather通算掩盖	✅	✅
	MC2	✅	❌
	CoC	✅	❌
	Ascend Gloo 存档落盘优化	✅	✅
优化器	Muon优化器	✅	❌

基于MindSpeed LLM的实测指令微调性能如下：

模型	硬件	集群	方案	序列	性能	MFU
Llama2-7B	Atlas 900 A2 PODc	1x8	全参	dynamic	15.87 samples/s	-
			全参	16K	1.14 samples/s	37.4%
			全参	32K	0.51 samples/s	48.4%
Llama2-13B	Atlas 900 A2 PODc	1x8	全参	dynamic	50.4 samples/s	-
Llama2-70B	Atlas 900 A2 PODc	1x8	LoRA	dynamic	15.2 samples/s	-

方案名称	Mcore	LoRA	QLoRA	Released	贡献方
单样本微调	✅	✅	✅	✅	【Ascend】
多样本pack微调	✅	✅	❌	❌	【NAIE】
多轮对话微调	✅	✅	❌	❌	【Ascend】

场景	特性	Mcore	Released	贡献方
LoRA微调	CCLoRA	✅	✅	【Ascend】
QLoRA微调	CCLoRA	❌	❌	【NAIE】
长序列微调	长序列CP	✅	❌	【Ascend】