昇腾社区首页
中文
注册

简介

在MOE(Mixture-of-Experts )架构中,不同专家所接收的输入tokens数量存在显著差异,这直接导致了AlltoAll通信和专家计算负载的不均衡。热门专家所在的NPU卡会面临算力和通信资源紧张,而冷门专家所在的NPU卡则会出现算力和通信资源的浪费,从而导致性能的损失。负载均衡特性旨在降低NPU卡间的不均衡度,从而提升模型推理的性能。

MindIE当前支持两种负载均衡特性:静态冗余负载均衡和强制负载均衡。

  • 静态冗余负载均衡:采用部署额外的冗余专家方式,减少热点专家的负载,将热点专家的负载分散到冗余专家上,以达到负载均衡的效果。
  • 强制负载均衡:采用让专家负载绝对均衡的“假”tensor替换原始topk的输出,对专家topk算子的输出进行mock。强制负载均衡只是为负载均衡提供了理论上限,改变了模型专家实际路由,不能在正式业务中使用。