HCCP ra初始化失败,返回-17
适用场景
- 业务场景:集群训练
- 适用处理器:Atlas 训练系列产品
- 处理器形态:EP
现象描述
HCCL初始化网卡失败,HCCP报-17错误码:ra rdev init failed, ret [-17]
可能原因
HCCL在初始化时会根据rank table中的Device IP初始化Device网卡。如果初始化使用的Device IP和实际网卡的IP不一致,HCCP会初始化网卡失败并返回错误码 -17。
处理步骤
- 确认该Device的rank id,并在ranktable中找到对应的device_ip配置,rankid获取方式:
在用户态Host日志(需打开EVENT日志)中, grep关键字Entry-HcomInit,其identify中内容即为rankid。
- 确认该server的Device IP是否配置正确,若出现ranktable中device_ip配置和查询结果不一致的情况,请以查询结果为准,并修改对应rank的ranktable的"device_ip"字段。
使用 hccn_tool 可查看Device 网卡信息。
hccn_tool -i 0 -ip -g hccn_tool -i 1 -ip -g hccn_tool -i 2 -ip -g hccn_tool -i 3 -ip -g hccn_tool -i 4 -ip -g hccn_tool -i 5 -ip -g hccn_tool -i 6 -ip -g hccn_tool -i 7 -ip -g 或 for i in {0..7}; do hccn_tool -i $i -ip -g ; done
父主题: 常见故障分析与处理