业务挑战
MoE模型带来的模型推理挑战

MoE模型的专家通信All2All时延更大
在极端场景下,通信时延占整体时延的70%,导致推理的文本输出时延大,对话缓慢。

MoE模型专家负载不均衡,推理效率低
由于路由的随机性,部分专家过分热门,其他NPU处于闲置等待,拖慢了整体的推理业务,算力利用率低。

MoE模型内存占用大,导致性能瓶颈
以DeepSeek-R1 671B为例,700GB模型权重常驻内存,且KVCache碎片化分布,空闲内存少,推理性能瓶颈。
解决方案

大规模专家并行解决方案
MoE推理最优解,相比常规服务器堆叠,大规模专家并行可实现2到4倍的单卡吞吐提升,降低50%+系统时延,在相同卡数下获得更大的收益,实现“一份投入,多份输出”
方案亮点
动态专家负载均衡
MoE中专家负载容易不均,导致某个专家负载过高,阻塞整体的推理进度。昇腾通过EPLB动态专家负载均衡,在线统计和分析热点专家,实时分配和调节冗余专家分担负载,有效降低了热点专家的阻塞。
此外,通过让通信较为频繁的“亲和”专家部署在一张卡内或一个服务器内,减少了跨卡和跨机的通信。
通过这些专家调节技术,均衡了每个专家的计算量,负载峰均比从最大8降低到1.4,同时减少了30%的通信数量,提升了硬件资源利用率,使得集群的推理时延更低,支持更大的吞吐性能。
PD分离服务调度
在大语言模型中,输出第一个字符是Prefill阶段,输出后续字符称为Decode阶段,Prefill阶段要求处理大量的token计算,对计算要求高,而Decode阶段则是读取内存输出文字,访存要求相对更高。
通常PD两个阶段混合部署在一个硬件中,Prefill和Decode会有时延干扰,SLO难以满足,同时会导致资源需求不匹配,两个阶段都无法“满负荷运行”,从而导致整体的推理效率较低。
在昇腾大规模专家并行中,MindIE 包含服务化调度引擎,它可以将Prefill阶段和Decode阶段分离在不同的服务器中,组成Prefill实例和Decode实例,通过高速总线互联,形成PD分离推理集群,性能提高了40%,实现高性能大语言模型推理。
线程级精细调度
大模型推理中,CPU和NPU需要协同工作,比如在算子中串行的执行,会导致高速的NPU等待CPU,造成算力浪费,昇腾通过NPU和CPU的线程级并行调度,并让它们NUMA亲和,达到了94%的模型峰值性能
RAS可靠性
为了让集群更可靠,在硬件上,昇腾提供电信级别的高可靠部件,降低30%硬件失效率,在集群上,MindCluster和CCAE 集群自智引擎可以自动发现服务器和集群的细微故障,秒级识别,分钟级定位,MindIE 推理引擎的调度策略,支持有冗余节点、无冗余节点情况下的故障恢复,让故障的P实例/D实例在7分钟内恢复工作。通过软硬协同,大规模专家并行方案运行起来更加可靠,实现生产业务的长稳运行。
相关产品
Atlas 800I A3 推理超节点
