配置device的网卡IP

当进行分布式训练时,需要通过配置device的网卡IP,用于多个device间通信以实现网络模型参数的同步更新。本章节介绍如何使用昇腾软件中的HCCN Tool工具或使用ascend-deployer工具提供的配置脚本(ascend-deployer/tools/DeviceIP-conf.sh)配置device的网卡IP。

针对HCCN Tool工具,本章节只提供配置网络的命令,如果用户需要使用HCCN Tool工具的其他功能(如检查网口Link状态),请参见《Ascend 910 HCCN Tool 接口参考(AI加速卡)》。

Atlas 800 训练服务器Atlas 900 AI集群场景使用HCCN Tool工具

判定是SMP模式还是AMP模式,请登录BMC后台执行命令“ipmcget -d npuworkmode”进行查询。

Atlas 300T 训练卡场景使用HCCN Tool工具

Atlas 300T 训练卡每台服务器可以配置1或2张标卡,每张标卡对应1个Device OS,每张标卡需要配置1个地址,不同标卡配置相同网段IP地址即可。

以root用户登录到AI Server配置每个device的网卡IP。配置操作如下:

  1. 先使用命令npu-smi info查看待配置device的ID,如图1中的NPU值,下文以NPU值为1和4为例,实际操作中以查询结果为准:

    图1 查看device ID

  2. 执行如下命令配置device的网卡IP,下文所用ip地址为示例,配置时以实际规划ip为准。

    hccn_tool -i 1 -ip -s address 192.168.0.2 netmask 255.255.255.0
    hccn_tool -i 4 -ip -s address 192.168.0.3 netmask 255.255.255.0

需要确认在服务器上安装有npu-smi工具。

批量部署Device IP

ascend-deployer/tools/DeviceIP-conf.sh脚本可以修改NPU板卡IP地址,并利用ansible工具的批量部署能力实现批量配置,以下内容仅供有批量配置使用场景的用户参考使用。

  • Device IP为待修改的NPU板卡IP地址。
  • 批量操作不支持混合设备类型,即所选设备的设备类型、NPU标卡数量及配置的IP地址个数、工作模式必须一致。
  • 每台服务器有2块NPU板,每块NPU板有4个NPU芯片。SMP模式下每块NPU板上的4个NPU芯片需要配置4个不同网段的IP地址。

以root用户登录到目标服务器,配置操作如下:

  1. 准备OS IP地址文件、Device IP地址文件。

    1. OS IP地址文件
      • 格式一(推荐):IP地址段,类似IPx-IPy,以回车结束,例如:
        10.80.100.101~10.80.100.104
      • 格式二:IP地址清单,逐一给出OS IP地址,以回车结束,例如:
        10.80.100.101
        10.80.100.102
        10.80.100.103
        10.80.100.104
    2. Device IP地址文件
      • 格式一(推荐):IP地址段,类似IPx-IPy/Netmask/Gateway的格式,SMP模式下每块NPU板上的4个NPU芯片需要配置4个不同网段的Device IP地址,以回车结束,例如:
        172.16.1.100~172.16.1.107/255.255.255.0/172.16.1.1
        172.16.2.100~172.16.2.107/255.255.255.0/172.16.2.1
        172.16.3.100~172.16.3.107/255.255.255.0/172.16.3.1
        172.16.4.100~172.16.4.107/255.255.255.0/172.16.4.1
      • 格式二:IP地址清单,类似IP/Netmask/Gateway的格式,逐一给出OS IP地址,以回车结束,例如:
        172.16.1.100/255.255.255.0/172.16.1.1
        172.16.2.100/255.255.255.0/172.16.2.1
        172.16.3.100/255.255.255.0/172.16.3.1
        172.16.4.100/255.255.255.0/172.16.4.1

  2. 将OS IP地址文件、Device IP地址文件转换为UNIX格式,参考命令如下。

    dos2unix OS_IP.txt

  3. 将OS IP地址文件、Device IP地址文件、Device IP配置脚本上传到目标主机的指定目录(分别为/root/uploadosip、/root/uploaddeviceip、/root/uploaddeviceip)。
  4. 在目标主机指定目录/root/uploaddeviceip,执行如下命令进行批量配置。

    bash DeviceIP-conf.sh [设备类型] [NPU标卡数量] [NPU标卡IP配置] [工作模式] [OS IP地址文件] [Device IP地址文件]
    • 设备类型:使用npu-smi info查询NPU数量,NPU数量为8,则取值1,NPU数量为4,则取值为2。
    • NPU标卡数量:根据实际情况配置NPU标卡数量。
    • NPU标卡IP配置:根据实际情况配置NPU标卡IP的数量。
    • 工作模式:根据实际情况配置,取值包括SMP(对称多处理器模式)和AMP(非对称多处理器模式)。
    • OS IP地址文件和Device IP地址文件:根据3上传的实际路径修改。

    以8个非标NPU板卡采用SMP模式的A800-9000为例,命令示例如下:

    bash DeviceIP-conf.sh 1 0 0 SMP /root/uploadosip/OS_IP /root/uploaddeviceip/Device_IP