特性列表

为确保MindSpeed在昇腾设备上实现大模型训练的全方位加速与优化，以下特性列表概述了关键功能与优势，旨在从计算性能、内存资源、通信性能、并行算法以及差异化能力支持等多个维度，全面提升大模型训练的效率与稳定性。

表1 特性列表
特性类别	特性说明	特性名称	Mcore	Legacy
并行算法优化	提供昇腾亲和的多维度并行加速	Megatron数据并行
		Megatron张量并行
		Megatron序列并行
		Megatron流水线并行
		Megatron虚拟流水并行
		Nano-Pipe流水线并行
		Ulysses长序列并行
		Ring Attention长序列并行
		Hybrid长序列并行
内存资源优化	支持高效内存算法，最大化性能无损	Megatron重计算
		Megatron分布式优化器
		自适应选择重计算
		激活函数重计算
		重计算流水独立调度
		参数副本复用
		Norm重计算
通信性能优化	发挥极致通信性能，实现计算与通信并行	Megatron异步DDP
		计算通信并行优化
		Megatron权重更新通信隐藏
		MLP通信隐藏
		自定义空操作层
		Megatron MoE AllGather Dispatcher性能优化
		Megatron MoE TP拓展EP
		AlltoAll Dispatcher并行优化（敬请期待）	-	-
计算性能优化	全场景高性能融合算子加速库，昇腾亲和优化	DropoutAddLayerNorm融合优化
		Flash Attention融合优化
		RMSNorm融合优化
		SwiGLU融合优化
		RoPE融合优化
		Matmul_Add融合优化
		MoE Token重排性能优化
		MoE Token Permute and Unpermute融合优化
		Megatron MoE GMM
差异化能力支持	在长序列、权重保存、并行策略自动搜索等场景提供差异化能力	支持EoD重置
		Gloo存档落盘优化
		共享专家
		大模型并行策略自动搜索Auto Tuning

目前MindSpeed支持Megatron MoE和Deepspeed MoE两种实现，可通过如下参数进行配置。

--moe-model-type deepspeed_moe      # 使用DeepSpeed MoE实现方案
--moe-model-type megatron_moe       # 使用Megatron MoE实现方案

Mcore为当前主要演进分支，推荐使用。Mcore相较于Legacy，采用更加解耦和模块化的设计，提供更灵活的接口和底层功能，特别适合需要自定义训练过程的用户。
Legacy以功能维护为主，不继续演进。

父主题： 使用指导