昇腾社区首页
中文
注册
开发者
下载

定位思路(EI0002)

完成通信域初始化及参数面建链后,HCCL会进行通信算子的任务编排及下发,在通信算子的任务编排上,进行数据通信前会有notify同步机制来确保对端已准备好接收本端的数据,因此如果有rank由于某种异常导致进程卡死或退出、网络故障或调用的通信算子不一致,会导致大部分rank出现执行等待超时。遇到此类问题,定位的首要条件是找到故障点位置,整体定位思路如下图

图1 任务下发执行阶段报错定位思路

HCCL DFX机制说明

HCCL在通信算子任务下发执行阶段提供了以下DFX机制来辅助问题快速定位

  • HCCL存在集群心跳机制,当某个rank节点发现异常时,会通过心跳机制扩散到集群的每个节点上,因此可以先在集群中的任意节点的CANN日志中检索是否有心跳的异常事件信息打印,机制说明及日志信息可以参考集群心跳机制
  • 若未检索到心跳的异常事件信息日志打印,可通过task exception报错信息排查是否有集群行为不一致问题,排查方法可参考task exception机制