通信算子重执行对整网性能说明

开启HCCL通信算子重执行功能后，整网端到端性能的变化与模型的切分部署方式密切相关，本节详细讲述重执行功能与网络性能的关系。

定义“关键通信域”

关键通信域为：该通信域性能的变化将会带来整网端到端性能的较大的变化。意味着该通信域非常重要，是整网的性能瓶颈。

一般而言，整网有多个通信域，多个通信域中往往存在1个关键通信域，本节性能分析就围绕该“关键通信域”展开。

如下图所示：

上述profiling中实际发生通信的有4个通信域。分别是Group_777、Group_1289、Group_257以及Group_9。

Group_1289中执行的BatchSendRecv算子，是PipelineParallel引入的，一般而言是异步通信，与计算可以异步发生，而且时间占比不大，不是关键通信域。

Group_777和Group_9，算子执行操作较少，对全局的影响很小，也不是关键通信域。

由此比较容易判断出，group_257就是“关键通信域”。如果该通信域性能劣化，则会直接影响整网端到端性能。

整网性能劣化与“关键通信域”的关系

关注点1：关键通信域是否开了重执行。

一些常见的部署方式，例如张量并行（TP：Tensor Parallelism）叠加数据并行（Data Parallelism：DP），其中TP是“关键通信域”，如果TP的范围在Server内（TP<=16），由于Server内不会开启通信算子重执行，所以不会影响端到端性能。

而非关键通信域，对整网的性能影响很小。例如以下为实验室测试模型的数据：

模型	切分方式	劣化比例	说明
Llama3-8B (运行在64die规模集群上)	TP=16（关键通信域） DP=4	0.03%	仅非关键通信域DP开启重执行，对端到端性能影响较小。
GPT4_dropLess (运行在128die规模集群)	TP=8（关键通信域） PP=1 EP=1 CP=16	0.99%	仅非关键通信域CP（Context Parallelism，上下文并行）开启重执行，对端到端性能影响较小。
Qwen3-moe-235B（运行在128die规模集群）	TP=8（关键通信域） PP=1 EP=64	-0.1%	仅非关键通信域EP（Expert Parallelism，专家并行）开启重执行，对端到端性能影响较小。

模型

切分方式

劣化比例

说明

Llama3-8B

(运行在64die规模集群上)

TP=16（关键通信域）

DP=4

0.03%

仅非关键通信域DP开启重执行，对端到端性能影响较小。

GPT4_dropLess

(运行在128die规模集群)

TP=8（关键通信域）

PP=1

EP=1

CP=16

0.99%

仅非关键通信域CP（Context Parallelism，上下文并行）开启重执行，对端到端性能影响较小。

Qwen3-moe-235B（运行在128die规模集群）

TP=8（关键通信域）

PP=1

EP=64

-0.1%

仅非关键通信域EP（Expert Parallelism，专家并行）开启重执行，对端到端性能影响较小。

关注点2：关键通信域的通信展开和计算能否重叠。

如果关键通信域开了重执行，那么该通信域的性能一定会有劣化；但是该劣化是否会引发整网劣化，还需要看该关键通信域的AI CPU展开是否能够与计算重叠（overlap）。

单个通信域开了重执行后，最大的差异是由异步展开模式变为同步展开模式，如下图，即从上面的方式变为下面的方式。

图1 重执行开启后算子展开方式变化

通信展开时间能否被计算掩盖，是决定该通信域是否对端到端性能有影响的关键因素，具体需要结合计算算子的情况（模型结构）进行分析。

如下图所示，计算算子耗时仅50us，由于AI CPU展开模式带来的前后通信算子之间的空隙有150us，那么“150-50=100us”是重执行引入的开销。这个开销又是在“关键通信域”上，就会引发端到端劣化。

但是，这个劣化到底是多少，需要看关键通信域的算子在整网中的占比（与模型结构及部署方式强相关），以及这个维度的展开是否能与计算overlap。

例如，同样是EP64切分，不同的模型就有不同的劣化效果。

模型	切分方式	劣化比例	说明
DeepSeekV3（运行在64die规模集群）	EP=64	0.06%	关键通信域EP开重执行，但该模型计算时间长，重执行开销能够被计算掩盖，整网端到端性能劣化不严重。
qwen3-moe-30b (运行在64die规模集群)	EP=64	3%	关键通信域EP开重执行，重执行开销不能被计算掩盖，整网端到端有性能劣化。

模型

切分方式

劣化比例

说明

DeepSeekV3（运行在64die规模集群）

EP=64

0.06%

关键通信域EP开重执行，但该模型计算时间长，重执行开销能够被计算掩盖，整网端到端性能劣化不严重。

qwen3-moe-30b

(运行在64die规模集群)

EP=64

关键通信域EP开重执行，重执行开销不能被计算掩盖，整网端到端有性能劣化。

由此可见，模型端到端影响因素与模型结构强相关，重执行对整网性能的影响需要根据实际情况进行评估。

父主题： 参考