0ceafd12创建于 2025年5月19日历史提交

Fused MLP

特性介绍

在开启了TP和SP的大模型训练场景下,MLP Column反向的gather通信并不依赖RoW、swiglu等反向计算,可以优先处理,从而通过调整通信和计算的顺序,减少等待闲置时间,提高利用率。

使用方法

RC2以上版本,当开启模型并行(TP)及序列并行(SP)时,通过设置--use-fused-mlp启用MLP融合加速。

使用效果

适合序列长度1k以内场景,7B参数量或8K以上序列场景收益有限。以下为模型在单机八卡场景,TP=8,PP=1,开启sequence-parallel,MC2特性下性能验证结果。

模型 序列 基线吞吐 TFLOP/s/GPU 优化吞吐 TFLOP/s/GPU 性能提升
Llama2-7B-sft 动态 408.2 452.91 11.0%
Llama2-7B-sft 1k 86.69 96.49 11.3%
Llama2-7B-sft 2k 134.23 136.29 1.5%
Llama2-7B-sft 4k 152.43 155.95 2.3%
Llama2-7B-sft 8k 153.05 157.74 3.1%
Llama2-13B-sft 动态 695.05 754.30 8.5%