混合专家模型(MoE)
前期准备
操作步骤
进入Megatron-LM目录,执行pretrain_llama_tp4_ep2_dp2.sh脚本。
cd {PATH_TO_MEGATRON_LM} bash tests_extend/system_tests/llama2/pretrain_llama_tp4_ep2_dp2.sh
上述脚本pretrain_llama_tp4_ep2_dp2.sh,包括但不限于以下并行与优化特性:
- 并行配置
--tensor-model-parallel-size # 张量并行 --pipeline-model-parallel-size # 流水线并行 --sequence-parallel # 序列并行 --expert-model-parallel-size # 专家并行
- 融合算子
--use-flash-attn # Flash Attention融合算子 --normalization RMSNorm # RMSNorm归一化 --use-fused-rmsnorm # RMSNorm融合算子 --swiglu # SwiGLU激活函数 --use-fused-swiglu # SwiGLU融合算子
- 计算优化
--enable-token-rearrange-opt # MoE Token重排性能优化
父主题: 特性使用案例