共享专家外置:共享专家独立部署在固定的前几张NPU卡上,与路由专家/冗余专家分离。计算负载均衡时只考虑路由专家。
计算流程:dispatch -> 同时计算共享专家和路由专家 -> combine
共享专家内置:共享专家和路由专家/冗余专家部署在同一张NPU上。计算负载均衡时只考虑路由专家。
计算流程:共享专家matmul -> dispatch -> 路由专家 -> combine -> 共享专家结果 + 路由专家结果
共享专家混置:把共享专家作为路由专家来计算负载均衡。
计算流程:dispatch -> 同时计算共享专家和路由专家 -> combine
- 仅支持DeepSeek V3/R1。
- 仅Atlas 800I A3 超节点服务器的144卡场景,支持单独设置共享专家外置。如果该场景搭配负载均衡使用,则性能更优。
- 共享专家混置可单独设置,如果该场景搭配负载均衡使用,则性能更优。
- 共享专家外置只支持Atlas 800I A3 超节点服务器;共享专家混置同时支持Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器。
(推荐)搭配专家负载均衡
Atlas 800I A3 超节点服务器的144卡单独使用共享专家外置,且不搭配专家负载均衡。
在配置文件中修改如下参数。
[object Object]单独设置共享专家混置:
在配置文件中修改如下参数。
[object Object]