专家指 MoE 模型中的子网络(Expert),每个专家是相对独立的前馈网络,由门控根据输入选择部分专家参与计算;大规模专家指专家数量较多的 MoE 模型(如专家数达数十至上百),模型总参数量大、单次激活的专家数远小于总专家数;大规模专家并行指将众多专家分布到多台计算设备上,通过并行执行被选中的专家计算以完成推理或训练。大规模部署时,专家被切分并部署在多台计算设备上,因此激活某专家即触发承载该专家的设备上的计算,并在执行过程中进行必要的通信与调度。MindIE Motor 通过 P(Prefill)与 D(Decode)实例分工及集群管理组件(Coordinator/Controller)完成调度与资源管理,详见与。
建议按以下流程开展性能调优:
- 分析:采集时延、吞吐、NPU 利用率等指标,确定性能瓶颈。
- 定位:区分问题位于算力、通信、内存或 P/D 配比等环节。
- 优化:结合下文典型配置,调整 P/D 实例数、节点数等参数。
- 验证:复测关键指标并与基线对比,确认优化效果。
进行大规模专家并行性能调优前,需确认以下条件已满足:
支持的硬件
环境检查
部署准备
大规模专家并行方案典型配置如表所示,按照当前规格,每个P实例分配2个计算节点,每个D实例支持分配4/8个计算节点。其中,P实例表示 Prefill 计算实例,D实例表示 Decode 计算实例。 每套集群管理组件实例(即 Coordinator/Controller 实例)管理一套PD实例,每套集群管理组件实例最大支持管理96节点(24P+6D)。 以192节点集群为例,需划分为两套独立的24P+6D实例,集群管理组件实例也需要对应创建两套,如所示,两套集群管理组件实例可共部署在一台或主备通算节点,如果现场部署集群管理组件实例的通算节点为双机,则集群管理组件实例也可以创建对应的主从实例(主从集群管理组件 Coordinator实例和主从集群管理组件 Controller实例)。其中,通算节点用于部署集群管理组件(Coordinator/Controller),不承担模型主体推理计算。
图 1 Atlas 800I A2 推理服务器安装方案
集群管理组件实例管理的PD实例规模支持按需灵活设置,如现场为64计算节点时,可以为64节点创建一套集群管理组件实例,也可以按照每16节点为一套独立的PD实例创建4套集群管理组件实例。
表1 Atlas 800I A2 推理服务器典型配置
[object Object]
通算节点硬件典型配置如表2所示,当前通算节点CPU架构仅支持Arm架构。
表2 Atlas 800I A2 推理服务器通算节点硬件要求
大规模专家并行方案典型配置如表3-1所示,按照当前规格,每个P实例分配1个计算节点,每个D实例可分配1/2/4/8个计算节点。其中,P实例表示 Prefill 计算实例,D实例表示 Decode 计算实例。 每套集群管理组件实例(即 Coordinator/Controller 实例)管理一套独立的PD实例,每套集群管理组件实例管理一个超节点(48计算节点)。 如现场部署了多个超节点,需划分多套独立的PD实例(每套48节点),则集群管理组件实例也需要对应创建多套,组网示例如图3-5所示,多套集群管理组件实例可共部署在一台或两台通算节点,如果现场部署集群管理组件实例的通算节点为双机,则集群管理组件实例也可以创建对应的主从实例(主从Coordinator实例和主从Controller实例)。其中,通算节点用于部署集群管理组件(Coordinator/Controller),不承担模型主体推理计算。
图 1 Atlas 800I A2 推理服务器安装方案
集群管理组件实例管理的PD实例规模可按需灵活设置,如现场为48计算节点时,可以为48节点创建一套集群管理组件实例,也可以按照每16节点为一套独立的PD实例创建3套集群管理组件实例。
表3 Atlas 800I A3 超节点服务器典型配置
如何验证配置后性能得到优化?
除参数配置外还有哪些性能优化方法?
- 算子/图优化:融合、选核等,依赖推理引擎与 CANN。
- 通信优化:拓扑、流控、集合通信算法与重叠。
- 运行参数优化:批大小(batch size)与序列长度、并发度的合理设置。
- 量化与精度策略:如 W8A8 等,在满足精度前提下进行选用。
- 环境一致性优化:驱动与 CANN 版本、固件与 BIOS 设置等。
- 具体可结合 msprof 或 msServiceProfiler 的剖析结果做针对性优化,并再次用上述验证方法确认效果。