通信算子重执行对整网性能说明
开启HCCL通信算子重执行功能后,整网端到端性能的变化与模型的切分部署方式密切相关,本节详细讲述重执行功能与网络性能的关系。
定义“关键通信域”
关键通信域为:该通信域性能的变化将会带来整网端到端性能的较大的变化。意味着该通信域非常重要,是整网的性能瓶颈。
一般而言,整网有多个通信域,多个通信域中往往存在1个关键通信域,本节性能分析就围绕该“关键通信域”展开。
如下图所示:

上述profiling中实际发生通信的有4个通信域。分别是Group_777、Group_1289、Group_257以及Group_9。
Group_1289中执行的BatchSendRecv算子,是PipelineParallel引入的,一般而言是异步通信,与计算可以异步发生,而且时间占比不大,不是关键通信域。
Group_777和Group_9,算子执行操作较少,对全局的影响很小,也不是关键通信域。
由此比较容易判断出,group_257就是“关键通信域”。如果该通信域性能劣化,则会直接影响整网端到端性能。
整网性能劣化与“关键通信域”的关系
- 关注点1:关键通信域是否开了重执行。
一些常见的部署方式,例如张量并行(TP:Tensor Parallelism)叠加数据并行(Data Parallelism:DP),其中TP是“关键通信域”,如果TP的范围在Server内(TP<=16),由于Server内不会开启通信算子重执行,所以不会影响端到端性能。
而非关键通信域,对整网的性能影响很小。例如以下为实验室测试模型的数据:
模型
切分方式
劣化比例
说明
Llama3-8B
(运行在64die规模集群上)
TP=16(关键通信域)
DP=4
0.03%
仅非关键通信域DP开启重执行,对端到端性能影响较小。
GPT4_dropLess
(运行在128die规模集群)
TP=8(关键通信域)
PP=1
EP=1
CP=16
0.99%
仅非关键通信域CP(Context Parallelism,上下文并行)开启重执行,对端到端性能影响较小。
Qwen3-moe-235B(运行在128die规模集群)
TP=8(关键通信域)
PP=1
EP=64
-0.1%
仅非关键通信域EP(Expert Parallelism,专家并行)开启重执行,对端到端性能影响较小。
- 关注点2:关键通信域的通信展开和计算能否重叠。
如果关键通信域开了重执行,那么该通信域的性能一定会有劣化;但是该劣化是否会引发整网劣化,还需要看该关键通信域的AI CPU展开是否能够与计算重叠(overlap)。
单个通信域开了重执行后,最大的差异是由异步展开模式变为同步展开模式,如下图,即从上面的方式变为下面的方式。
图1 重执行开启后算子展开方式变化
通信展开时间能否被计算掩盖,是决定该通信域是否对端到端性能有影响的关键因素,具体需要结合计算算子的情况(模型结构)进行分析。
如下图所示,计算算子耗时仅50us,由于AI CPU展开模式带来的前后通信算子之间的空隙有150us,那么“150-50=100us”是重执行引入的开销。这个开销又是在“关键通信域”上,就会引发端到端劣化。

但是,这个劣化到底是多少,需要看关键通信域的算子在整网中的占比(与模型结构及部署方式强相关),以及这个维度的展开是否能与计算overlap。
例如,同样是EP64切分,不同的模型就有不同的劣化效果。
模型
切分方式
劣化比例
说明
DeepSeekV3(运行在64die规模集群)
EP=64
0.06%
关键通信域EP开重执行,但该模型计算时间长,重执行开销能够被计算掩盖,整网端到端性能劣化不严重。
qwen3-moe-30b
(运行在64die规模集群)
EP=64
3%
关键通信域EP开重执行,重执行开销不能被计算掩盖,整网端到端有性能劣化。
由此可见,模型端到端影响因素与模型结构强相关,重执行对整网性能的影响需要根据实际情况进行评估。