昇腾社区首页
中文
注册

通过环境变量配置资源信息

进行训练之前,需要配置参与集群训练的昇腾AI处理器的资源信息。开发者可以不选择ranktable文件的方式,通过本节所述的环境变量组合的方式配置资源信息,完成集合通信组件的初始化。

使用前须知

  1. 如果使用1台训练服务器(Server),要求实际参与集合通信的昇腾AI处理器数目只能为1/2/4/8,且0-3卡和4-7卡各为一个组网,使用2张卡或4张卡训练时,不支持跨组网创建设备集群。
  2. 如果使用Server集群,即由集群管理主节点+一组训练服务器(Server)组成训练服务器集群,要求参与集合通信的的昇腾AI处理器数目只能为8*n(其中n为参与训练的Server个数,上限为512)。且n为2的指数倍情况下,集群性能最好,建议用户优先采用此种方式进行集群组网。
  3. Atlas 300T 训练卡(型号 9000)场景下,要求配置的昇腾AI处理器数目不大于服务器上实际的数目,并且必须使用模板一配置。

配置说明

需要在执行训练的每个Device上分别配置如下环境变量,进行资源信息的配置,示例如下:

export CM_CHIEF_IP = 192.168.1.1
export CM_CHIEF_PORT = 6000
export CM_CHIEF_DEVICE = 0
export CM_WORKER_SIZE = 8
export CM_WORKER_IP = 192.168.0.1
  • CM_CHIEF_IP、CM_CHIEF_PORT、CM_CHIEF_DEVICE 用于配置Master节点的Host 监听IP、监听端口与Device ID。
    • 监听IP可以通过ifconfig命令进行查询。
    • 指定的监听端口号需要确保在训练进程拉起时,无其他业务占用。
  • CM_WORKER_SIZE:用于配置参与集群训练的Device数量。
  • CM_WORKER_IP:用于配置当前节点与Master进行通信时所用的网卡IP,可通过ifconfig命令进行查询。

    需要确保指定的网卡IP能够与Master节点正常通信。

配置示例

以执行分布式训练的Device数量为16为例,拉起训练进程前,在对应的shell窗口中配置如下环境变量,进行资源信息的配置。

  • 节点0,此节点为Master节点。
    export CM_CHIEF_IP = 192.168.1.1
    export CM_CHIEF_PORT = 6000
    export CM_CHIEF_DEVICE = 0
    export CM_WORKER_SIZE = 16
    export CM_WORKER_IP = 192.168.1.1
  • 节点1
    export CM_CHIEF_IP = 192.168.1.1
    export CM_CHIEF_PORT = 6000
    export CM_CHIEF_DEVICE = 0
    export CM_WORKER_SIZE = 16
    export CM_WORKER_IP = 192.168.2.1

    后续节点配置类似。

后续说明

通过环境变量的方式设置参与分布式训练的资源信息后,若后续执行在线推理,请注意此种场景下仅支持全量设备参与推理,否则会导致推理任务执行失败。