在MOE（Mixture-of-Experts ）架构中，不同专家所接收的输入tokens数量存在显著差异，这直接导致了AlltoAll通信和专家计算负载的不均衡。热门专家所在的NPU卡会面临算力和通信资源紧张，而冷门专家所在的NPU卡则会出现算力和通信资源的浪费，从而导致性能的损失。负载均衡特性旨在降低NPU卡间的不均衡度，从而提升模型推理的性能。

MindIE当前支持两种负载均衡特性：静态冗余负载均衡和强制负载均衡。

静态冗余负载均衡：采用部署额外的冗余专家方式，减少热点专家的负载，将热点专家的负载分散到冗余专家上，以到达负载均衡的效果。

强制负载均衡：采用让专家负载绝对均衡的“假”tensor替换原始topk的输出，对专家topk算子的输出进行mock。强制负载均衡只是为负载均衡提供了理论上限，改变了模型专家实际路由，不能在正式业务中使用。

简介