问题现象描述
开启算子库日志(export ASDOPS_LOG_LEVEL=INFO; export ASDOPS_LOG_TO_STDOUT=1)与开启ATB日志(export ATB_LOG_LEVEL=INFO; export ATB_LOG_TO_STDOUT=1)多节点启动service报HCCL问题,例如下图:

原因分析
每台机器NPU底层tls校验行为不一致,导致HCCL通信错误。
解决措施
使用指令,查看每个节点的device的TLS开关状态是否一致:
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch
将TLS开关设置为0;使用如下命令:
for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done
将TLS开关设置为1;使用如下命令:
for i in {0..7};do hccn_tool -i $i -tls -s enable 1;done



