Megatron MoE Alltoall Dispatcher性能优化

背景与挑战

解决方案

使用场景

在使用Mcore MoE的场景下,开启了--moe-token-dispatcher-type alltoall。

使用方法

设置如下参数即开启Alltoall Dispatcher性能优化。
--moe-permutation-async-comm

由于开启--moe-grouped-gemm后,专家计算被单一算子合并,因此计算通信并行优化会失效。

使用效果

开启后可降低训练时长,提高性能。