限制与约束
Atlas 800I A2 推理服务器
支持此特性。
DeepSeek R1/V3模型支持此特性。
当前只支持在MOE为All2All集合通信场景下使用(模型配置文件中的“ep_level”参数为“2”)。PD分离场景,由于Prefill和Decode通常采用不同的集合通信方式,负载均衡的配置参数需分别设置。
强制负载均衡只能作为负载均衡的理论上限,不能在正式业务中使用。
静态冗余负载均衡采用在路由专家的NPU卡额外部署冗余专家方案,每卡多部署一个冗余专家,需额外占用2.4GB显存。
父主题:
负载均衡特性介绍