特性列表

为确保MindSpeed在昇腾设备上实现大模型训练的全方位加速与优化,以下特性列表概述了关键功能与优势,旨在从计算性能、内存资源、通信性能、并行算法以及关键场景等多个维度,全面提升大模型训练的效率与稳定性。

表1 特性列表

特性类别

特性说明

特性名称

Mcore

Legacy

并行算法优化

提供昇腾亲和的多维度并行加速

Megatron数据并行

Megatron张量并行

Megatron序列并行

Megatron流水线并行

Megatron虚拟流水线并行

Nano-Pipe流水线并行

Ulysses长序列并行

Ring Attention长序列并行

Hybrid长序列并行

内存资源优化

支持高效内存算法,最大化性能无损

Megatron重计算

Megatron分布式优化器

自适应选择重计算

激活函数重计算

重计算流水独立调度

参数副本复用

Norm重计算

HCCL Buffer自适应

通信性能优化

发挥极致通信性能,实现计算与通信并行

Megatron异步DDP

计算通信并行优化

Megatron权重更新通信隐藏

MLP通信隐藏

自定义空操作层

Megatron MoE AllGather Dispatcher性能优化

Megatron MoE Alltoall Dispatcher性能优化

Megatron MoE TP拓展EP

计算性能优化

全场景高性能融合算子加速库,昇腾亲和优化

DropoutAddLayerNorm融合优化

Flash Attention融合优化

RMSNorm融合优化

SwiGLU融合优化

RoPE融合优化

Matmul_Add融合优化

MoE Token重排性能优化

MoE Token Permute and Unpermute融合优化

Megatron MoE GMM

多模态能力支持

提供多模态场景下的昇腾优化方案

PP支持多参数传递

PP支持动态形状

PP支持多参数传递和动态形状

非对齐线性层

非对齐Ulysses长序列并行

差异化能力支持

在长序列、权重保存、并行策略自动搜索等场景提供差异化能力

支持EoD重置

Gloo存档落盘优化

共享专家

大模型并行策略自动搜索Auto Tuning

  • 目前MindSpeed支持Megatron MoE和Deepspeed MoE两种实现,可通过如下参数进行配置。
    --moe-model-type deepspeed_moe      # 使用DeepSpeed MoE实现方案
    --moe-model-type megatron_moe       # 使用Megatron MoE实现方案
  • Mcore为当前主要演进分支,推荐使用。Mcore相较于Legacy,采用更加解耦和模块化的设计,提供更灵活的接口和底层功能,特别适合需要自定义训练过程的用户。
  • Legacy以功能维护为主,不继续演进。