训练方案与特性说明
MindSpeed LLM包含分布式预训练、分布式微调等训练方案。
分布式预训练
基于MindSpeed LLM的实测预训练性能如下:
| 模型系列 | 实验模型 | 硬件信息 | 集群规模 | MFU |
|---|---|---|---|---|
| LLAMA2 | LLAMA2-7B | Atlas 900 A2 PODc | 1x8 | 69.0% |
| LLAMA2-13B | Atlas 900 A2 PODc | 1x8 | 64.7% | |
| LLAMA2-70B | Atlas 900 A2 PODc | 4x8 | 44.1% | |
| Mixtral | Mixtral-8x7B | Atlas 900 A2 PODc | 8x8 | 31.7% |
预训练方案
| 方案类别 | Mcore | Released | 贡献方 |
|---|---|---|---|
| 多样本集预训练 | ✅ | ✅ | 【Ascend】 |
| 多样本pack模式预训练 | ✅ | ❌ |
加速特性
| 场景 | 特性名称 | Mcore | Released | 贡献方 |
|---|---|---|---|---|
| SPTD并行 | 张量并行 | ✅ | ✅ | 【Ascend】 |
| 流水线并行 | ✅ | ✅ | ||
| 虚拟流水并行 | ✅ | ✅ | ||
| 序列并行 | ✅ | ✅ | ||
| noop layers | ✅ | ✅ | ||
| 长序列并行 | Ascend Ring Attention 长序列并行 | ✅ | ✅ | |
| Ulysses 长序列并行 | ✅ | ✅ | ||
| 混合长序列并行 | ✅ | ✅ | ||
| MOE | MOE 专家并行 | ✅ | ✅ | |
| MOE 重排通信优化 | ✅ | ✅ | ||
| 显存优化 | 参数副本复用 | ✅ | ✅ | |
| 分布式优化器 | ✅ | ✅ | ||
| Swap Attention | ✅ | ✅ | ||
| 重计算 | ✅ | ✅ | ||
| Norm重计算 | ✅ | ✅ | ||
| O2 BF16 Optimizer | ✅ | ❌ | ||
| 融合算子 | Flash attention | ✅ | ✅ | |
| Flash attention variable length | ✅ | ✅ | ||
| Fused rmsnorm | ✅ | ✅ | ||
| Fused swiglu | ✅ | ✅ | ||
| Fused rotary position embedding | ✅ | ✅ | ||
| GMM | ✅ | ✅ | ||
| Matmul Add | ✅ | ✅ | ||
| 通信优化 | 梯度reduce通算掩盖 | ✅ | ✅ | |
| Recompute in advance | ✅ | ✅ | ||
| 权重all-gather通算掩盖 | ✅ | ✅ | ||
| MC2 | ✅ | ❌ | ||
| CoC | ✅ | ❌ | ||
| Ascend Gloo 存档落盘优化 | ✅ | ✅ | ||
| 优化器 | Muon优化器 | ✅ | ❌ |
分布式微调
基于MindSpeed LLM的实测指令微调性能如下:
| 模型 | 硬件 | 集群 | 方案 | 序列 | 性能 | MFU |
|---|---|---|---|---|---|---|
| Llama2-7B | Atlas 900 A2 PODc | 1x8 | 全参 | dynamic | 15.87 samples/s | - |
| 全参 | 16K | 1.14 samples/s | 37.4% | |||
| 全参 | 32K | 0.51 samples/s | 48.4% | |||
| Llama2-13B | Atlas 900 A2 PODc | 1x8 | 全参 | dynamic | 50.4 samples/s | - |
| Llama2-70B | Atlas 900 A2 PODc | 1x8 | LoRA | dynamic | 15.2 samples/s | - |
微调方案
| 方案名称 | Mcore | LoRA | QLoRA | Released | 贡献方 |
|---|---|---|---|---|---|
| 单样本微调 | ✅ | ✅ | ✅ | ✅ | 【Ascend】 |
| 多样本pack微调 | ✅ | ✅ | ❌ | ❌ | 【NAIE】 |
| 多轮对话微调 | ✅ | ✅ | ❌ | ❌ | 【Ascend】 |
加速特性
| 场景 | 特性 | Mcore | Released | 贡献方 |
|---|---|---|---|---|
| LoRA微调 | CCLoRA | ✅ | ✅ | 【Ascend】 |
| QLoRA微调 | CCLoRA | ❌ | ❌ | 【NAIE】 |
| 长序列微调 | 长序列CP | ✅ | ❌ | 【Ascend】 |