多机无法拉起DeepSeek-R1模型推理,HCCL报错
2025/03/04
1.2k
问题信息
问题来源 | 产品大类 | 关键字 |
---|---|---|
现网 | 模型推理 | TLS,HCCL,AllReduce,通信,DeepSeek,推理 |
问题现象描述
开启算子库日志(export ASDOPS_LOG_LEVEL=INFO; export ASDOPS_LOG_TO_STDOUT=1)与开启ATB日志(export ATB_LOG_LEVEL=INFO; export ATB_LOG_TO_STDOUT=1)多节点启动service报HCCL问题,例如下图:
原因分析
每台机器NPU底层tls校验行为不一致,导致HCCL通信错误。
解决措施
使用指令,查看每个节点的device的TLS开关状态是否一致:
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch
将TLS开关设置为0;使用如下命令:
for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done
将TLS开关设置为1;使用如下命令:
for i in {0..7};do hccn_tool -i $i -tls -s enable 1;done