Megatron MoE TP拓展EP

背景与挑战

开启TP(Tensor Parallelism,张量并行)和EP(Expert Parallel,专家并行)后,专家层TP组切分专家参数,MoE细粒度小专家场景TP切分后GMM算子效率下降严重。

解决方案

针对小专家场景TP切分后GMM算子效率下降问题,专家层TP组不切分专家参数,切分专家数量。

使用场景

细粒度小专家,类DeepSeek-V2模型,每个专家的参数量较小。

使用方法

要启用该特性,需在配置中设置以下参数:

--moe-tp-extend-ep

同时需要开启如下参数:

--moe-permutation-async-comm
--moe-grouped-gemm     # 目前仅支持Grouped MLP

同时需要确保--num-experts能被tp * ep整除。

当前该特性不支持MoE Token drop and pad模式,即--moe-expert-capacity-factor需要为None。

使用效果

通过避免TP切分专家参数,提高小专家场景GMM算子效率,从而提高模型整体训练性能,在类DeepSeekV2万亿参数级别的MoE模型下,并且为细粒度小专家,性能最高提升10%以上。