NPU卡健康检查返回错误,提示timeout
2025/03/07
769
问题信息
| 问题来源 | 产品大类 | 关键字 | 
|---|---|---|
| 现网 | 模型推理 | TLS,HCCL,AllReduce,通信,DeepSeek,推理 | 
问题现象描述
多机拉起DeepSeek模型时,服务化拉起卡住。进行NPU卡进行健康检查时,返回timeout错误。

原因分析
- 交换机和NPU的网关没有配置。
 
- NPU的网关IP和侦测ip没有配置成一样。
  
- 使用hccn_tool [-i 7] -netdetect -g,查看NPU的侦测ip有没有配置或配置成多少。
 - 再次执行hccn_tool [-i 7] -gateway -g,查看NPU的网关IP地址有没有多少或者配置成多少。
 
 
解决措施
侦测IP和网关IP没有配置成一样,使用如下命令行修改成规划的网关IP地址,使两者一样,问题得以解决。
配置NPU网卡地址,网关地址,侦测IP的命令行如下:
1. Npu IP和掩码设置
hccn_tool -i 0 -ip -s address 192.168.16.126 netmask 255.255.255.0
2. Npu 网关设置
hccn_tool -i 0 -gateway -s gateway 192.168.16.254
3. Npu检测地址设置
hccn_tool -i 0 -netdetect -s address 192.168.16.254



