大规模专家并行方案典型配置-附录-MindIE Motor-服务化集成部署-MindIE3.0.0开发文档-昇腾社区

[object Object][object Object]

专家指 MoE 模型中的子网络（Expert），每个专家是相对独立的前馈网络，由门控根据输入选择部分专家参与计算；大规模专家指专家数量较多的 MoE 模型（如专家数达数十至上百），模型总参数量大、单次激活的专家数远小于总专家数；大规模专家并行指将众多专家分布到多台计算设备上，通过并行执行被选中的专家计算以完成推理或训练。大规模部署时，专家被切分并部署在多台计算设备上，因此激活某专家即触发承载该专家的设备上的计算，并在执行过程中进行必要的通信与调度。MindIE Motor 通过 P（Prefill）与 D（Decode）实例分工及集群管理组件（Coordinator/Controller）完成调度与资源管理，详见与。

建议按以下流程开展性能调优：

分析：采集时延、吞吐、NPU 利用率等指标，确定性能瓶颈。
定位：区分问题位于算力、通信、内存或 P/D 配比等环节。
优化：结合下文典型配置，调整 P/D 实例数、节点数等参数。
验证：复测关键指标并与基线对比，确认优化效果。

[object Object]

进行大规模专家并行性能调优前，需确认以下条件已满足：

支持的硬件
- Atlas 800I A2 推理服务器的硬件与操作系统支持见，PD 分离部署与特性支持度见与。
- Atlas 800I A3 超节点服务器的硬件与操作系统支持见，PD 分离部署与特性支持度见与。
环境检查
- 部署与调优前已完成环境检查，具体检查项如下：
- 网络拓扑：节点间链路、带宽与时延满足部署与集合通信要求，无丢包、误码等异常。
- 存储性能：模型加载路径的 IOPS 与带宽满足大模型加载与运行要求。
- NPU 配置：型号、片上内存、CANN/驱动版本、网口与光模块规格满足部署要求。
- 支持的操作系统：详情请参见。
部署准备
- 进行调优前，请参见查看 PD 分离特性支持度，并已参考完成 PD 分离部署。PD 分离指 Prefill 与 Decode 实例分离部署，协同完成推理。

[object Object]

大规模专家并行方案典型配置如表所示，按照当前规格，每个P实例分配2个计算节点，每个D实例支持分配4/8个计算节点。其中，P实例表示 Prefill 计算实例，D实例表示 Decode 计算实例。每套集群管理组件实例（即 Coordinator/Controller 实例）管理一套PD实例，每套集群管理组件实例最大支持管理96节点（24P+6D）。以192节点集群为例，需划分为两套独立的24P+6D实例，集群管理组件实例也需要对应创建两套，如所示，两套集群管理组件实例可共部署在一台或主备通算节点，如果现场部署集群管理组件实例的通算节点为双机，则集群管理组件实例也可以创建对应的主从实例（主从集群管理组件 Coordinator实例和主从集群管理组件 Controller实例）。其中，通算节点用于部署集群管理组件（Coordinator/Controller），不承担模型主体推理计算。

图 1 Atlas 800I A2 推理服务器安装方案

集群管理组件实例管理的PD实例规模支持按需灵活设置，如现场为64计算节点时，可以为64节点创建一套集群管理组件实例，也可以按照每16节点为一套独立的PD实例创建4套集群管理组件实例。

表1 Atlas 800I A2 推理服务器典型配置

[object Object]undefined

[object Object]

通算节点硬件典型配置如表2所示，当前通算节点CPU架构仅支持Arm架构。

表2 Atlas 800I A2 推理服务器通算节点硬件要求

[object Object]undefined

[object Object]

大规模专家并行方案典型配置如表3-1所示，按照当前规格，每个P实例分配1个计算节点，每个D实例可分配1/2/4/8个计算节点。其中，P实例表示 Prefill 计算实例，D实例表示 Decode 计算实例。每套集群管理组件实例（即 Coordinator/Controller 实例）管理一套独立的PD实例，每套集群管理组件实例管理一个超节点（48计算节点）。如现场部署了多个超节点，需划分多套独立的PD实例（每套48节点），则集群管理组件实例也需要对应创建多套，组网示例如图3-5所示，多套集群管理组件实例可共部署在一台或两台通算节点，如果现场部署集群管理组件实例的通算节点为双机，则集群管理组件实例也可以创建对应的主从实例（主从Coordinator实例和主从Controller实例）。其中，通算节点用于部署集群管理组件（Coordinator/Controller），不承担模型主体推理计算。

图 1 Atlas 800I A2 推理服务器安装方案

集群管理组件实例管理的PD实例规模可按需灵活设置，如现场为48计算节点时，可以为48节点创建一套集群管理组件实例，也可以按照每16节点为一套独立的PD实例创建3套集群管理组件实例。

表3 Atlas 800I A3 超节点服务器典型配置

[object Object]undefined

[object Object]

如何验证配置后性能得到优化？
- 业务指标：在相同负载下使用或自有压测工具，对比调优前后的 TTFT（首 Token 时延）、吞吐（Output Token Throughput）、端到端时延等，确认有提升且无劣化。
- 剖析数据：使用 msprof 或 MindIE 提供的 msServiceProfiler 服务化调优工具 采集调优后的性能数据（含算子级与调度链路），解析后通过 MindStudio Insight 等工具做可视化分析，确认瓶颈是否缓解、计算/通信占比是否更合理。
- 工具使用与配置详见与。
除参数配置外还有哪些性能优化方法？
- 算子/图优化：融合、选核等，依赖推理引擎与 CANN。
- 通信优化：拓扑、流控、集合通信算法与重叠。
- 运行参数优化：批大小（batch size）与序列长度、并发度的合理设置。
- 量化与精度策略：如 W8A8 等，在满足精度前提下进行选用。
- 环境一致性优化：驱动与 CANN 版本、固件与 BIOS 设置等。
- 具体可结合 msprof 或 msServiceProfiler 的剖析结果做针对性优化，并再次用上述验证方法确认效果。