Fused MLP
特性介绍
在开启了TP和SP的大模型训练场景下,MLP Column反向的gather通信并不依赖RoW、swiglu等反向计算,可以优先处理,从而通过调整通信和计算的顺序,减少等待闲置时间,提高利用率。
使用方法
RC2以上版本,当开启模型并行(TP)及序列并行(SP)时,通过设置--use-fused-mlp启用MLP融合加速。
使用效果
适合序列长度1k以内场景,7B参数量或8K以上序列场景收益有限。以下为模型在单机八卡场景,TP=8,PP=1,开启sequence-parallel,MC2特性下性能验证结果。
| 模型 | 序列 | 基线吞吐 TFLOP/s/GPU | 优化吞吐 TFLOP/s/GPU | 性能提升 |
|---|---|---|---|---|
| Llama2-7B-sft | 动态 | 408.2 | 452.91 | 11.0% |
| Llama2-7B-sft | 1k | 86.69 | 96.49 | 11.3% |
| Llama2-7B-sft | 2k | 134.23 | 136.29 | 1.5% |
| Llama2-7B-sft | 4k | 152.43 | 155.95 | 2.3% |
| Llama2-7B-sft | 8k | 153.05 | 157.74 | 3.1% |
| Llama2-13B-sft | 动态 | 695.05 | 754.30 | 8.5% |