下载
中文
注册
NPU卡健康检查返回错误,提示timeout

NPU卡健康检查返回错误,提示timeout

2025/03/07

769

暂无评分
我要评分

问题信息

问题来源产品大类关键字
现网模型推理TLS,HCCL,AllReduce,通信,DeepSeek,推理

问题现象描述

多机拉起DeepSeek模型时,服务化拉起卡住。进行NPU卡进行健康检查时,返回timeout错误。

放大

原因分析

  1. 交换机和NPU的网关没有配置。
  1. NPU的网关IP和侦测ip没有配置成一样。
    • 使用hccn_tool [-i 7] -netdetect -g,查看NPU的侦测ip有没有配置或配置成多少。
    • 再次执行hccn_tool [-i 7] -gateway -g,查看NPU的网关IP地址有没有多少或者配置成多少。

解决措施

侦测IP和网关IP没有配置成一样,使用如下命令行修改成规划的网关IP地址,使两者一样,问题得以解决。

配置NPU网卡地址,网关地址,侦测IP的命令行如下:

1. Npu IP和掩码设置

hccn_tool -i 0 -ip -s address 192.168.16.126 netmask 255.255.255.0

2. Npu 网关设置

hccn_tool -i 0 -gateway -s gateway 192.168.16.254

3. Npu检测地址设置

hccn_tool -i 0 -netdetect -s address 192.168.16.254

本页内容