问题现象描述
多机拉起DeepSeek模型时,服务化拉起卡住。进行NPU卡进行健康检查时,返回timeout错误。

原因分析
- 交换机和NPU的网关没有配置。
- NPU的网关IP和侦测ip没有配置成一样。
- 使用hccn_tool [-i 7] -netdetect -g,查看NPU的侦测ip有没有配置或配置成多少。
- 再次执行hccn_tool [-i 7] -gateway -g,查看NPU的网关IP地址有没有多少或者配置成多少。
解决措施
侦测IP和网关IP没有配置成一样,使用如下命令行修改成规划的网关IP地址,使两者一样,问题得以解决。
配置NPU网卡地址,网关地址,侦测IP的命令行如下:
1. Npu IP和掩码设置
hccn_tool -i 0 -ip -s address 192.168.16.126 netmask 255.255.255.0
2. Npu 网关设置
hccn_tool -i 0 -gateway -s gateway 192.168.16.254
3. Npu检测地址设置
hccn_tool -i 0 -netdetect -s address 192.168.16.254



