简介

在MOE(Mixture-of-Experts )架构中,不同专家所接收的输入tokens数量存在显著差异,这直接导致了AlltoAll通信和专家计算负载的不均衡。热门专家所在的NPU卡会面临算力和通信资源紧张,而冷门专家所在的NPU卡则会出现算力和通信资源的浪费,从而导致性能的损失。负载均衡特性旨在降低NPU卡间的不均衡度,从而提升模型推理的性能。

MindIE当前支持两种负载均衡特性:静态冗余负载均衡和强制负载均衡。