开启TP(Tensor Parallelism,张量并行)和EP(Expert Parallel,专家并行)后,专家层TP组切分专家参数,MoE细粒度小专家场景TP切分后GMM算子效率下降严重。
针对小专家场景TP切分后GMM算子效率下降问题,专家层TP组不切分专家参数,切分专家数量。
细粒度小专家,类DeepSeek-V2模型,每个专家的参数量较小。
要启用该特性,需在配置中设置以下参数:
--moe-tp-extend-ep
同时需要开启如下参数:
--moe-permutation-async-comm --moe-grouped-gemm # 目前仅支持Grouped MLP
同时需要确保--num-experts能被tp * ep整除。
当前该特性不支持MoE Token drop and pad模式,即--moe-expert-capacity-factor需要为None。
通过避免TP切分专家参数,提高小专家场景GMM算子效率,从而提高模型整体训练性能,在类DeepSeekV2万亿参数级别的MoE模型下,并且为细粒度小专家,性能最高提升10%以上。