Megatron MoE allgather dispatcher分支通信隐藏优化
背景与挑战
MoE中,存在大量的EP通信没有做通信隐藏,端到端时间占比大。这些耗时可以通过和计算交替进行,从而提高模型的训练性能。
解决方案
在前向过程中,使用异步通信来尽可能与计算做互相掩盖。同时,对整个计算流程进行子图切分,从而在反向过程中也进行通算并行,加速模型训练。
此特性对allgather dispatcher 进行了针对性优化。
使用方法
打开--moe-allgather-overlap-comm启用该特性。
同时需要开启:
--moe-permutation-async-comm--moe-token-dispatcher-type allgather--moe-grouped-gemm,目前仅支持Grouped MLP。
适用场景
适用megatron-moe,dropless方案分支时候,ep通信瓶颈时,需要通信隐藏ep通信的场景。 启动该特性会导致占用显存发生提高,属正常现象。