Get P2P status超时

适用场景

现象描述

常见于算子编译阶段,日志报错信息:Wait timeout for get P2P status

可能原因

HCCL初始化会在AI Server内的各rank(Device)间建立P2P使能链接,若任一个rank在建链前/中发生异常,未拉起业务进程,则会导致本AI server初始化失败。

处理步骤