此环境变量用于控制是否开启点对点通信(torch.distributed.isend、torch.distributed.irecv和torch.distributed.batch_isend_irecv)使用独立通信域功能。
当开启点对点通信使用独立通信域功能时,每一个通信域都会额外占用P2P_HCCL_BUFFSIZE大小的缓存区。若集群网络中存在较多的通信域,此缓存区占用量就会增多,可能存在影响模型数据正常存放的风险,此种场景下,可通过此环境变量减少点对点通信域占用的缓存区大小;若业务的模型数据量较小,但点对点通信数据量较大,则可通过此环境变量增大点对点通信域占用的缓存区大小,提升点对点通信效率。单位为M,建议配置值为20。
export P2P_HCCL_BUFFSIZE=20
否
此环境变量仅适用于PyTorch网络,且使用HCCL作为通信后端的场景。
Atlas 训练系列产品
Atlas A2 训练系列产品