昇腾大规模专家并行解决方案-昇腾社区

业务挑战

MoE模型带来的模型推理挑战

MoE模型的专家通信All2All时延更大

在极端场景下，通信时延占整体时延的70%，导致推理的文本输出时延大，对话缓慢。

MoE模型专家负载不均衡，推理效率低

由于路由的随机性，部分专家过分热门，其他NPU处于闲置等待，拖慢了整体的推理业务，算力利用率低。

MoE模型内存占用大，导致性能瓶颈

以DeepSeek-R1 671B为例，700GB模型权重常驻内存，且KVCache碎片化分布，空闲内存少，推理性能瓶颈。

解决方案

大规模专家并行解决方案

MoE推理最优解，相比常规服务器堆叠，大规模专家并行可实现2到4倍的单卡吞吐提升，降低50%+系统时延，在相同卡数下获得更大的收益，实现“一份投入，多份输出”

64卡大规模专家并行

384卡大规模专家并行

方案亮点

动态专家负载均衡

MoE中专家负载容易不均，导致某个专家负载过高，阻塞整体的推理进度。昇腾通过EPLB动态专家负载均衡，在线统计和分析热点专家，实时分配和调节冗余专家分担负载，有效降低了热点专家的阻塞。

此外，通过让通信较为频繁的“亲和”专家部署在一张卡内或一个服务器内，减少了跨卡和跨机的通信。

通过这些专家调节技术，均衡了每个专家的计算量，负载峰均比从最大8降低到1.4，同时减少了30%的通信数量，提升了硬件资源利用率，使得集群的推理时延更低，支持更大的吞吐性能。

PD分离服务调度

在大语言模型中，输出第一个字符是Prefill阶段，输出后续字符称为Decode阶段，Prefill阶段要求处理大量的token计算，对计算要求高，而Decode阶段则是读取内存输出文字，访存要求相对更高。

通常PD两个阶段混合部署在一个硬件中，Prefill和Decode会有时延干扰，SLO难以满足，同时会导致资源需求不匹配，两个阶段都无法“满负荷运行”，从而导致整体的推理效率较低。

在昇腾大规模专家并行中，MindIE 包含服务化调度引擎，它可以将Prefill阶段和Decode阶段分离在不同的服务器中，组成Prefill实例和Decode实例，通过高速总线互联，形成PD分离推理集群，性能提高了40%，实现高性能大语言模型推理。

线程级精细调度

大模型推理中，CPU和NPU需要协同工作，比如在算子中串行的执行，会导致高速的NPU等待CPU，造成算力浪费，昇腾通过NPU和CPU的线程级并行调度，并让它们NUMA亲和，达到了94%的模型峰值性能

RAS可靠性

为了让集群更可靠，在硬件上，昇腾提供电信级别的高可靠部件，降低30%硬件失效率，在集群上，MindCluster和CCAE 集群自智引擎可以自动发现服务器和集群的细微故障，秒级识别，分钟级定位，MindIE 推理引擎的调度策略，支持有冗余节点、无冗余节点情况下的故障恢复，让故障的P实例/D实例在7分钟内恢复工作。通过软硬协同，大规模专家并行方案运行起来更加可靠，实现生产业务的长稳运行。

业务挑战

MoE模型带来的模型推理挑战

解决方案

方案亮点

相关产品

关于昇腾

新闻与活动

交流与资讯

支持与服务

开源社区

About Ascend

Communication and Information

Links