Megatron MoE Alltoall Dispatcher性能优化
背景与挑战
解决方案
使用场景
在使用Mcore MoE的场景下,开启了--moe-token-dispatcher-type alltoall。
使用方法
设置如下参数即开启Alltoall Dispatcher性能优化。
--moe-permutation-async-comm

由于开启--moe-grouped-gemm后,专家计算被单一算子合并,因此计算通信并行优化会失效。
使用效果
开启后可降低训练时长,提高性能。
父主题: 通信性能优化