为确保MindSpeed在昇腾设备上实现大模型训练的全方位加速与优化，以下特性列表概述了关键功能与优势，旨在从计算性能、内存资源、通信性能、并行算法以及关键场景等多个维度，全面提升大模型训练的效率与稳定性。

表1 特性列表
特性类别	特性说明	特性名称
并行算法优化	提供昇腾亲和的多维度并行加速	Megatron数据并行
		Megatron张量并行
		Megatron序列并行
		Megatron流水线并行
		Megatron虚拟流水线并行
		Nano-Pipe流水线并行
		Ulysses长序列并行
		Ring Attention长序列并行
		Hybrid长序列并行
内存资源优化	支持高效内存算法，最大化性能无损	Megatron重计算
		Megatron分布式优化器
		自适应选择重计算
		激活函数重计算
		重计算流水独立调度
		参数副本复用
		Norm重计算
		HCCL Buffer自适应
通信性能优化	发挥极致通信性能，实现计算与通信并行	Megatron异步DDP
		计算通信并行优化
		Megatron权重更新通信隐藏
		MLP通信隐藏
		自定义空操作层
		Megatron MoE AllGather Dispatcher性能优化
		Megatron MoE Alltoall Dispatcher性能优化
		Megatron MoE TP拓展EP
计算性能优化	全场景高性能融合算子加速库，昇腾亲和优化	DropoutAddLayerNorm融合优化
		Flash Attention融合优化
		RMSNorm融合优化
		SwiGLU融合优化
		RoPE融合优化
		Matmul_Add融合优化
		MoE Token重排性能优化
		MoE Token Permute and Unpermute融合优化
		Megatron MoE GMM
多模态能力支持	提供多模态场景下的昇腾优化方案	PP支持多参数传递
		PP支持动态形状
		PP支持多参数传递和动态形状
		非对齐线性层
		非对齐Ulysses长序列并行
差异化能力支持	在长序列、权重保存、并行策略自动搜索等场景提供差异化能力	支持EoD重置
		Gloo存档落盘优化
		共享专家
		大模型并行策略自动搜索Auto Tuning

目前MindSpeed支持Megatron MoE和Deepspeed MoE两种实现，可通过如下参数进行配置。

--moe-model-type deepspeed_moe      # 使用DeepSpeed MoE实现方案
--moe-model-type megatron_moe       # 使用Megatron MoE实现方案

Mcore为当前主要演进分支，推荐使用。Mcore相较于Legacy，采用更加解耦和模块化的设计，提供更灵活的接口和底层功能，特别适合需要自定义训练过程的用户。
Legacy以功能维护为主，不继续演进。