MoE类模型支持Expert Parallel(EP,专家并行),通过将专家分别部署在不同的设备上,实现专家级别的并行计算。
当前实现两种形式的EP并行:
基于AllGather通信的EP并行,即"ep_level": 1
基于AllToAll和通算融合的EP并行,即"ep_level": 2
- DeepSeek-V2,DeepSeek-V3,DeepSeek-R1模型支持对接此特性。
- 当专家并行数超过32时,DeepSeek-V3、DeepSeek-R1自动使能Grouped MatMul融合算子,提升计算性能。
开启Expert Parallel特性,需要配置的服务化参数如所示。
表 1 Expert Parallel特性补充参数:ModelConfig中的models参数 [object Object][object Object]
“ep_level”=“2”时,使用样例:
[object Object]
[object Object]
“ep_level”=“1”时,长序列场景使用样例:
[object Object]