冗余专家部署表生成
采集热点信息后,每个NPU会生成一个.csv文件,文件中包含一个矩阵(num_moe_layer * 单NPU专家数)。矩阵中的每个数字代表该layer中该专家所计算的token数,每8个token会在采集文件中追加该矩阵。
根据采集的专家热点信息,可使用msit工具的“elb”组件生成冗余专家部署表。
- 安装“elb”组件,安装方法如下所示。
# 1.git clone git clone https://gitee.com/ascend/msit.git cd msit/msit # 2.安装msit pip install . # 3.通过msit install命令,安装所需组件elb组件 msit install elb # 4.安装之后可以使用msit check命令检查安装是否成功 msit check all
- 显示如下回显信息,表示安装成功。
2025-07-16 15:08:58,383 - 36266 - msit_llm_logger - INFO - msit-surgeon 2025-07-16 15:08:58,395 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,395 - 36266 - msit_llm_logger - INFO - msit-analyze 2025-07-16 15:08:58,407 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,407 - 36266 - msit_llm_logger - INFO - msit-convert 2025-07-16 15:08:58,419 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,419 - 36266 - msit_llm_logger - INFO - msit-profile 2025-07-16 15:08:58,431 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,431 - 36266 - msit_llm_logger - INFO - msit-tensor-view 2025-07-16 15:08:58,443 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,443 - 36266 - msit_llm_logger - INFO - msit-benchmark 2025-07-16 15:08:58,454 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,454 - 36266 - msit_llm_logger - INFO - msit-compare 2025-07-16 15:08:58,465 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,465 - 36266 - msit_llm_logger - INFO - msit-opcheck 2025-07-16 15:08:58,476 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,476 - 36266 - msit_llm_logger - INFO - msit-graph 2025-07-16 15:08:58,488 - 36266 - msit_llm_logger - INFO - not install yet. 2025-07-16 15:08:58,488 - 36266 - msit_llm_logger - INFO - msit-elb 2025-07-16 15:08:58,632 - 36266 - msit_llm_logger - INFO - OK
- 参见负载均衡算法快速入门指南,使用“elb”组件生成冗余专家部署表。8机64卡典型配置如下:
msit elb -icp input_dir_path -o output_file_path -nre 0 -nd 8 -nn 64 -al 5 -dt a2
msit工具提供两种负载均衡算法:计算通信负载均衡算法(C2LB)和speculative-moe interface algorithm。当前speculative-moe level 2 混置算法(al 5)在Atlas 800I A2 推理服务器中取得最优,speculative-moe level 2算法(al 3)在Atlas 800I A3 超节点中取得最优。

- PD分离场景,可分别单独生成Prefill和Decode的冗余专家部署表。
- PD混合场景,只需生成Decode的冗余专家部署表,以提升Decode性能。
父主题: 使用说明