下载
中文
注册
多机无法拉起DeepSeek-R1模型推理,HCCL报错

多机无法拉起DeepSeek-R1模型推理,HCCL报错

2025/03/04

1.2k

暂无评分
我要评分

问题信息

问题来源产品大类关键字
现网模型推理TLS,HCCL,AllReduce,通信,DeepSeek,推理

问题现象描述

开启算子库日志(export ASDOPS_LOG_LEVEL=INFO; export ASDOPS_LOG_TO_STDOUT=1)与开启ATB日志(export ATB_LOG_LEVEL=INFO; export ATB_LOG_TO_STDOUT=1)多节点启动service报HCCL问题,例如下图:

放大

原因分析

每台机器NPU底层tls校验行为不一致,导致HCCL通信错误。

解决措施

使用指令,查看每个节点的device的TLS开关状态是否一致:

for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

将TLS开关设置为0;使用如下命令:

for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

将TLS开关设置为1;使用如下命令:

for i in {0..7};do hccn_tool -i $i -tls -s enable 1;done

本页内容