配置device的网卡IP

当进行分布式训练时,需要通过昇腾软件中的HCCN Tool工具配置device的网卡IP,用于多个device间通信以实现网络模型参数的同步更新。本章节只介绍使用HCCN Tool工具配置网络的命令,如果用户需要使用HCCN Tool工具的其他功能(如检查网口Link状态),请参见Ascend 910 23.0.RC2 HCCN Tool 接口参考(AI加速卡)Atlas A2 中心训练硬件 23.0.RC2 HCCN Tool 接口参考

如用户需要在多台设备进行分布式训练,可执行hccn_tool -i x -tls -s enable 0命令(x表示处理器ID,从0~7,执行命令时需更换为DI号)关闭Device侧TLS,否者可能存在导致训练性能降低的情况。

  • 如果关闭Device侧TLS,那么在集群通信时,所有信息明文传输,可能存在安全风险,请用户根据实际情况选择是否关闭。
  • 只有物理机root用户才有权限关闭Device侧TLS。

Atlas 800 训练服务器Atlas 900 AI集群场景

判定是SMP模式还是AMP模式,请登录BMC后台执行命令“ipmcget -d npuworkmode”进行查询。

Atlas 300T 训练卡场景

Atlas 300T 训练卡每台服务器可以配置1或2张标卡,每张标卡对应1个Device OS,每张标卡需要配置1个地址,不同标卡配置相同网段IP地址即可。

以root用户登录到AI Server配置每个device的网卡IP,以Atlas 300T 训练卡为例,配置操作如下:

  1. 先使用命令npu-smi info查看待配置device的ID,如图1中的NPU值,下文以NPU值为1和4为例,实际操作中以查询结果为准:

    图1 查看device ID

  2. 执行如下命令配置device的网卡IP,如下命令所用IP地址为示例,配置时以实际规划IP为准。

    hccn_tool -i 1 -ip -s address 192.168.0.2 netmask 255.255.255.0
    hccn_tool -i 4 -ip -s address 192.168.0.3 netmask 255.255.255.0

需要确认在服务器上安装有npu-smi工具,执行npu-smi -h查询。