PETR模型多节点性能下降分析

Stream PETR模型，DP Size为8，在节点数量提高后，多任务训练耗时均匀变慢，如表1所示。

初步分析
- 单节点内性能劣化问题，从单步时间看，单节点劣化的核心原因是SyncBatchNormBackwardElemt带来算子耗时劣化。
- 单节点到多节点存在性能劣化问题。
根因解析

20节点的共网任务，截止到目前的syncbn优化措施，单步时延已从5.693s优化到3.866s，优化效果明显。

表2为具体的优化措施，请用户根据实际情况来选择优化。

表2 优化类型与措施
优化类型	分析	优化措施	实验结果
算子优化	syncbn基于torch原生代码，为使能路径3，加入过patch；若去掉patch，在当前版本上会走到路径5。	去掉syncbn上为NPU适配的patch	1节点，单步耗时 2.25s -> 2.165s 5节点，单步耗时从3.03s -> 2.68s
算子优化	消除transdata。	torch_npu.config.allow_internal_format = False	2.55s -> 2.53s
模型优化	资源抢占问题。	建议关闭gc	5节点，2.68s -> 2.6s
	小算子太多，下发频繁，性能不好。当前numa为8，需要额外尝试绑核。	绑核	5节点，2.6s -> 2.555s
	融合优化器。	使能融合优化器	2.53s -> 2.49s

父主题： 典型案例分析