【昇腾大规模专家并行技术解码】CANN独创NB 2.0通信算法,MoE模型集合通信性能倍增
发表于 2025/04/28
MoE架构的集合通信优化挑战
在MoE模型(如DeepSeekV3)的分布式训练中,随着模型参数规模的大幅增长,传统通信架构带宽利用率、资源调度和容错能力等方面成为关键训练瓶颈。为此,昇腾提出协同优化方案:硬件层面,昇腾超节点架构通过创新的拓扑设计提升节点内通信效率;软件层面,Non-uniform Bruck 2.0(NB 2.0)智能通信算法引入多链路并发和分级流量控制,实现跨节点通信性能突破。Non-uniform Bruck 2.0(NB 2.0),亲和超节点内/间拓扑,复用异构链路
1. AnyPath算法
集合通信当前面临的核心挑战在于其内部链路利用率不足,主要表现在以下两个方面:- TP并行场景:在单服务器(server)内部,SIO链路的带宽高于HCCS。然而,当采用DoubleRing算法时,系统的有效带宽受限于环上的瓶颈链路,导致SIO的高带宽无法被充分利用;
- SP/CP等跨server场景:在跨server通信时,实际仅使用了HCCS链路进行数据传输,而RDMA/RoCE链路的带宽未被有效利用,造成资源闲置。
AnyPath算法通过双物理环架构,将集合通信任务动态映射到传输路径,协同调度SIO、HCCS及RDMA/RoCE链路,实现超节点内多链路并发通信。同时,该算法结合通信量最优切分策略,有效规避多路径通信中的木桶效应,显著提升聚合带宽利用率。
AnyPath算法的创新显著提升了超节点内的带宽利用效率,通过同时启用HCCS和RDMA/RoCE双链路,将可用带宽提升超过10GB,吞吐性能获得5%+的提升。在大数据量场景下,超节点相较A2吞吐提升70%。
2. AHC(Asymmetrical Hierarchical Concatenate)算法
在分布式算力集群中,传统单层算法面临两大核心挑战:一是跨层次/区域间的带宽收敛问题,二是各计算域内服务器计算卡数量存在显著非对称分布。这种非对称资源配置特性,即不同服务器的计算卡数量不一致的现象,给集群资源调度和通信优化带来了新考验。
AHC算法创新性地提出非对称层次化拼接架构,通过以下关键技术突破非对称通信时的broken ring通信瓶颈:
- 逻辑同号卡对齐机制:基于“逻辑同号卡”对齐,解决卡数不对称问题,显著降低对齐带宽开销;
- 智能并行流编排方案:优化调度执行顺序,实现带宽分时复用,有效规避多对一通信冲突。
在非对称场景下,AHC算法相比传统单层算法性能提升20%+。在收敛/长距组网场景,可以实现通信效率翻倍。
NB 2.0技术使能指南
以上优化特性已在昇腾CANN最新版本中实现,CANN包安装过程可参考社区文档:
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/81RC1alpha001/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit
./Ascend-cann-toolkit_<version>_linux-<arch>.run --install
source ${HOME}/Ascend/ascend-toolkit/set_env.sh
CANN包安装并通过环境变量使能后,可以通过命令行的环境变量配置使能两种优化算法。
Anypath算法环境变量:
export HCCL_CONCURRENT_ENABLE=1
AHC算法环境变量:
export HCCL_ALGO="level1:AHC"
在超节点架构的应用场景中,NB 2.0等创新通信算法为MoE架构提供了更高效的解决方案。昇腾CANN将持续推进技术演进,不断优化集合通信性能。我们诚挚欢迎广大开发者欢迎通过昇腾社区体验这些创新技术。