昇腾社区首页
中文
注册
开发者
下载

典型多机场景通信域初始化失败

问题现象

图1 三机场景下通信域创建失败案例

该问题现象为一个典型的三机共24卡的通信域创建协商超时的报错日志,其中节点0为通信域的root节点,分析每个节点的报错现象:

  • 节点0:节点0为root节点,报错信息为server线程等待通信域内所有rank链接超时,可以从报错信息中获取已成功连接的rank,并反向推算出未连接的rank为rank16~rank23。
  • 节点1:该节点属于和root节点成功创建socket连接的节点,在等待接收root节点超时后收到了root节点扩散的未连接的rank信息,可从报错日志中直接得到未连接的rank为rank16~rank23。
  • 节点2:节点2的报错日志为与server节点建立socket超时,且问题根因在于节点2与root节点的Host侧网络配置错误导致无法连接,修改配置后问题解决。

定位思路

从该典型场景可以看出,当集群发生通信域创建建链超时时,无论是server节点还是已成功连接的节点,都可以从报错日志中快速确认未连接的rank,也就是报错的根节点,此时仅需可以重点排查未连接rank的失败原因即可,如常见的连接超时原因为未配置HCCL_SOCKET_IFNAME环境变量导致使用未连通的Host网卡。