IP Family校验不一致
问题现象
在CANN日志中存在关键字"rank[*] device ip family[2] is not same with others[*].",如下所示:
[ERROR] HCCL(144905,python):2025-04-20-00:26:54.435.048 [config.cc:413] [145735][Check][RankIpFamily]rank[0] device ip family[2] is not same with others[10].
问题根因
两个rank获取到的IP Family不同,比如一边是IPv4,而另一边是IPv6。
解决方法
查询是否配置了IPv4:
hccn_tool -i {deviceId} -ip -g
查询是否配置了IPv6:
hccn_tool -i {deviceId} -ip -inet6 -g
同一次作业的所有rank的IP Family应保持一致。HCCL默认先使用IPv4协议,若Device侧没有配置IPv4协议的IP,则会使用IPv6协议对应的ip。
如果存在Device侧IP漏配的情况,内置网卡会上报一个缺省的IPv6地址,此时如果其他NPU是IPv4,也会导致IP Family不一致报错。