Megatron MoE TP拓展EP

背景与挑战

开启TP+EP后，专家层TP组切分专家参数，MoE细粒度小专家场景TP切分后GMM算子效率下降严重。

针对小专家场景TP切分后GMM算子效率下降问题，专家层TP组不切分专家参数，切分专家数量。

细粒度小专家，类DeepSeek-V2模型，每个专家的参数量较小。

打开--moe-tp-extend-ep启用该特性。

同时需要开启：

同时需要确保--num-experts能被tp * ep整除。

当前该特性不支持Moe Token drop and pad模式，即--moe-expert-capacity-factor需要为None。当前仅支持alltoall_seq dispatcher。

通过避免TP切分专家参数，提高小专家场景GMM算子效率，从而提高模型整体训练性能，在类DeepSeekV2万亿参数级别的MoE模型下，并且为细粒度小专家，性能最高提升10%以上。