进行训练之前,需要配置参与集群训练的昇腾AI处理器的资源信息。开发者可以通过本节所述的环境变量组合的方式配置资源信息,完成集合通信组件的初始化。
需要在执行训练的每个Server节点上分别配置如下环境变量,进行资源信息的配置,示例如下:
export CM_CHIEF_IP = 192.168.1.1 export CM_CHIEF_PORT = 6000 export CM_CHIEF_DEVICE = 0 export CM_WORKER_SIZE = 8 export CM_WORKER_IP = 192.168.0.1
假设执行分布式训练的Server节点数量为2,Device数量为16为例,每个Server节点有8个Device。拉起训练进程前,在对应的shell窗口中配置如下环境变量,进行资源信息的配置。
export CM_CHIEF_IP = 192.168.1.1 export CM_CHIEF_PORT = 6000 export CM_CHIEF_DEVICE = 0 export CM_WORKER_SIZE = 16 export CM_WORKER_IP = 192.168.1.1
export CM_CHIEF_IP = 192.168.1.1 export CM_CHIEF_PORT = 6000 export CM_CHIEF_DEVICE = 0 export CM_WORKER_SIZE = 16 export CM_WORKER_IP = 192.168.2.1