HCCL会在指定集群的每个Device上运行,并在集群间建立socket链接,若任一个rank或者通信链路在建链前或建链中发生异常,都会导致集群建链失败。常见的原因包括:
收集所有卡的plog日志后,按以下步骤排查:
如需查询tag和计算图中node name的对应关系,需开启INFO日志,在Host日志中搜索:
关键字1:GenerateOpTag:graph
关键字2:GenerateTask:graph
关键字1可以看到node的hash值,关键字2可以看到node hash对应的NodeName,协助计算图排查。
可通过hccn tool命令来确认TLS是否一致,如不一致请参考配套版本的《HCCN Tool 接口参考》进行TLS配置。
查询TLS状态命令:
hccn_tool -i 0 -tls -g hccn_tool -i 1 -tls -g hccn_tool -i 2 -tls -g hccn_tool -i 3 -tls -g hccn_tool -i 4 -tls -g hccn_tool -i 5 -tls -g hccn_tool -i 6 -tls -g hccn_tool -i 7 -tls -g
TLS switch值为0表示关闭,1表示开启。如果提示no certificate found,也表示TLS功能关闭。如果各个rank的TLS情况不一致,可使用hccn_tool工具配置TLS,或者关闭所有rank的TLS功能。
关闭TLS功能命令:
hccn_tool -i 0 -tls -s enable 0 hccn_tool -i 1 -tls -s enable 0 hccn_tool -i 2 -tls -s enable 0 hccn_tool -i 3 -tls -s enable 0 hccn_tool -i 4 -tls -s enable 0 hccn_tool -i 5 -tls -s enable 0 hccn_tool -i 6 -tls -s enable 0 hccn_tool -i 7 -tls -s enable 0