HCCL会在指定集群的每个Device上运行,并在集群间建立socket链接,若任一个rank或者通信链路在建链前/中发生异常,则会导致集群建链失败。常见的原因包括:
收集所有卡的plog日志后,按以下步骤排查:
如需查询tag和计算图中node name的对应关系,需开启INFO日志,在Host日志中搜索:
关键字1:GenerateOpTag:graph
关键字2:GenerateTask:graph
关键字1可以看到node的hash值,关键字2可以看到nodHash对应的NodeName,协助计算图排查。
可通过hccn tool命令来确认TLS是否一致,如不一致请参考随产品发布的《HCCN Tool 接口参考》进行TLS配置。
《HCCN Tool接口参考》的获取方式为:单击Link进入企业业务网站的“昇腾计算 文档中心”,然后在“中心训练硬件”栏选择对应的硬件型号,单击进入对应的文档页面,即可在其中找到配套版本的《HCCN Tool接口参考》。
查询TLS状态命令:
hccn_tool -i 0 -tls -g hccn_tool -i 1 -tls -g hccn_tool -i 2 -tls -g hccn_tool -i 3 -tls -g hccn_tool -i 4 -tls -g hccn_tool -i 5 -tls -g hccn_tool -i 6 -tls -g hccn_tool -i 7 -tls -g
TLS switch值为0表示关闭,1表示开启。如果提示no certificate found,也表示TLS功能关闭。如果各个rank的TLS情况不一致,可使用hccn_tool工具配置TLS,或者关闭所有rank的TLS功能。
关闭TLS功能命令:
hccn_tool -i 0 -tls -s enable 0 hccn_tool -i 1 -tls -s enable 0 hccn_tool -i 2 -tls -s enable 0 hccn_tool -i 3 -tls -s enable 0 hccn_tool -i 4 -tls -s enable 0 hccn_tool -i 5 -tls -s enable 0 hccn_tool -i 6 -tls -s enable 0 hccn_tool -i 7 -tls -s enable 0