定位思路
HCCL会对rank table文件或协商收集到的rank table信息进行校验,若校验失败HCCL会直接报错退出,请基于实际报错内容进行定位。
可能的原因有:rank table文件校验失败、内容与硬件配置不符合,TLS配置不一致或superDeviceId重复。
后续内容为一些常见的集群信息校验失败报错案例,若未找到对应案例可根据实际的报错信息进行定位排查。
父主题: 集群信息校验失败问题
HCCL会对rank table文件或协商收集到的rank table信息进行校验,若校验失败HCCL会直接报错退出,请基于实际报错内容进行定位。
可能的原因有:rank table文件校验失败、内容与硬件配置不符合,TLS配置不一致或superDeviceId重复。
后续内容为一些常见的集群信息校验失败报错案例,若未找到对应案例可根据实际的报错信息进行定位排查。