共享专家外置
- 共享专家内置:共享专家和路由专家/冗余专家部署在同一张NPU上。计算负载均衡时只考虑路由专家。
计算流程:共享专家matmul -> dispatch -> 路由专家 -> combine -> 共享专家结果 + 路由专家结果
- 共享专家混置:把共享专家当做路由专家来计算负载均衡。
限制与约束
- 仅支持DeepSeek V3/R1。
- 仅Atlas 800I A3 超节点服务器的144卡场景,支持单独设置共享专家外置。如果该场景搭配负载均衡使用,则性能更优。
- 共享专家混置和共享专家内置都需要搭配负载均衡同时使用,且负载均衡只支持“ep_level”为“2”。
- 共享专家外置只支持Atlas 800I A3 超节点服务器;共享专家混置只支持Atlas 800I A2 推理服务器;共享专家内置支持Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器。
使用样例
- (推荐)搭配专家负载均衡
- 请参见冗余专家部署表生成,生成专家部署表。
- 在配置文件中修改如下参数。
1 2 3 4 5 6 7 8 9
"models": { "deepseekv2": { "ep_level": 2, "eplb": { "level": 1, "expert_map_file": "xxxx.json" } } }
- Atlas 800I A3 超节点服务器 144卡单独使用共享专家外置,且不搭配专家负载均衡。
在配置文件中修改如下参数。
1 2 3 4 5 6
"models": { "deepseekv2": { "ep_level": 2, "num_dangling_shared_experts": 32 } }
执行推理
- 配置服务化参数。服务化的config.json文件路径的详细说明请参考:《MindIE安装指南》中的“配置MindIE > 配置Server > 单机推理”章节中的软件包文件清单。具体参数配置请参见使用样例。
- 启动服务。具体请参考《MindIE Motor开发指南》中的“快速入门 > 启动服务”章节。
父主题: MoE