开启TP（Tensor Parallelism，张量并行）和EP（Expert Parallel，专家并行）后，专家层TP组切分专家参数，MoE细粒度小专家场景TP切分后GMM算子效率下降严重。

针对小专家场景TP切分后GMM算子效率下降问题，专家层TP组不切分专家参数，切分专家数量。

细粒度小专家，类DeepSeek-V2模型，每个专家的参数量较小。

要启用该特性，需在配置中设置以下参数：

--moe-tp-extend-ep

同时需要开启如下参数：

--moe-permutation-async-comm
--moe-grouped-gemm     # 目前仅支持Grouped MLP

同时需要确保--num-experts能被tp * ep整除。

当前该特性不支持MoE Token drop and pad模式，即--moe-expert-capacity-factor需要为None。

通过避免TP切分专家参数，提高小专家场景GMM算子效率，从而提高模型整体训练性能，在类DeepSeekV2万亿参数级别的MoE模型下，并且为细粒度小专家，性能最高提升10%以上。

Megatron MoE TP拓展EP