在进行network诊断前,需在Host侧以root用户按照如下步骤配置配置RoCE网卡IP地址和子网掩码,然后配置用于网络检测对象IP地址,否则可能导致诊断失败。
本章节中配置步骤需用到hccn_tool工具。hccn_tool是集群网络工具,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。使用工具前需要已完成驱动安装,其他相关要求说明如下:
配置Host侧的TLS证书时,需要保证hccn_tool文件的权限为555,其所在路径/usr/local/Ascend/driver/tools(指工具的安装路径)的权限为755。
hccn_tool -i devid -ip -s address %s netmask %s
示例:hccn_tool -i 0 -ip -s address 192.168.2.10 netmask 255.255.255.0
ipv6网络请执行以下命令:
hccn_tool -i devid -ip -inet6 -s ipv6_address %s prefix_length %d
示例:hccn_tool -i 0 -ip -inet6 -s ipv6_address 20xx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xx34 prefix_length 64
返回值
参数说明如下:
参数名称 |
说明 |
---|---|
devid |
设备ID |
address后的%s |
RoCE网卡的IP地址 |
netmask后的%s |
子网掩码 |
ip |
指定IP属性。 |
inet6 |
表示使用ipv6协议。 |
prefix_length |
IP地址的前缀长度。取值范围:0~128。 |
该功能主要用于检测网络状态,当多台服务器进行分布式训练时,可将检测对象IP配置为网段内的网关地址,服务器会定时检测和网关地址通信是否正常,从而实现检测服务器参数面网络状态是否正常的效果。
ipv6网络请执行以下命令:
hccn_tool -i devid -netdetect -inet6 -s ipv6_address %s
示例:hccn_tool -i 0 -netdetect -inet6 -s ipv6_address 20xx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xx34
ipv4网络请执行以下命令:
hccn_tool -i devid -netdetect -s address %s
示例:hccn_tool -i 0 -netdetect -s address 192.168.2.11
返回值
参数说明如下:
参数名称 |
说明 |
---|---|
devid |
设备ID |
netdetect |
指定网络检测对象IP属性 |
inet6 |
表示使用ipv6协议。 |
s |
设置属性。 |
address %s |
IP地址 |