冗余专家部署表生成

采集热点信息后，每个NPU会生成一个.csv文件，文件中包含一个矩阵（num_moe_layer * 单NPU专家数）。矩阵中的每个数字代表该layer中该专家所计算的token数，每8个token会在采集文件中追加该矩阵。

根据采集的专家热点信息，可使用msit工具的“elb”组件生成冗余专家部署表。

安装“elb”组件，安装方法如下所示。

# 1.git clone
git clone https://gitee.com/ascend/msit.git
cd msit/msit

# 2.安装msit
pip install .
 
# 3.通过msit install命令，安装所需组件elb组件
msit install elb
 
# 4.安装之后可以使用msit check命令检查安装是否成功
msit check all

显示如下回显信息，表示安装成功。

2025-07-16 15:08:58,383 - 36266 - msit_llm_logger - INFO - msit-surgeon
2025-07-16 15:08:58,395 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,395 - 36266 - msit_llm_logger - INFO - msit-analyze
2025-07-16 15:08:58,407 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,407 - 36266 - msit_llm_logger - INFO - msit-convert
2025-07-16 15:08:58,419 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,419 - 36266 - msit_llm_logger - INFO - msit-profile
2025-07-16 15:08:58,431 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,431 - 36266 - msit_llm_logger - INFO - msit-tensor-view
2025-07-16 15:08:58,443 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,443 - 36266 - msit_llm_logger - INFO - msit-benchmark
2025-07-16 15:08:58,454 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,454 - 36266 - msit_llm_logger - INFO - msit-compare
2025-07-16 15:08:58,465 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,465 - 36266 - msit_llm_logger - INFO - msit-opcheck
2025-07-16 15:08:58,476 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,476 - 36266 - msit_llm_logger - INFO - msit-graph
2025-07-16 15:08:58,488 - 36266 - msit_llm_logger - INFO -   not install yet.
2025-07-16 15:08:58,488 - 36266 - msit_llm_logger - INFO - msit-elb
2025-07-16 15:08:58,632 - 36266 - msit_llm_logger - INFO -   OK

参见负载均衡亲和专家寻优指南，使用“elb”组件生成冗余专家部署表。8机64卡典型配置如下：
```
msit elb -icp input_dir_path -o output_file_path -nre 0 -nd 8 -nn 64 -al 5 -dt a2
```
msit工具提供两种负载均衡算法：计算通信负载均衡算法（C2LB）和speculative-moe interface algorithm。当前speculative-moe level 2 混置算法（al 5）在Atlas 800I A2 推理服务器中取得最优，speculative-moe level 2算法（al 3）在Atlas 800I A3 超节点服务器中取得最优。

PD分离场景，可分别单独生成Prefill和Decode的冗余专家部署表。
PD混合场景，只需生成Decode的冗余专家部署表，以提升Decode性能。

父主题： 使用说明