TensorFlow分布式训练场景下,用户可以选择不使用ranktable文件,通过组合使用环境变量CM_CHIEF_IP、CM_CHIEF_PORT、CM_CHIEF_DEVICE、CM_WORKER_SIZE、CM_WORKER_IP的方式自动生成资源信息,完成集合通信组件初始化。
本环境变量“CM_WORKER_SIZE”用于配置本次业务通信域Device的数量。
支持配置为字符串、数字,取值范围“0~32768”。
export CM_WORKER_SIZE=8
TensorFlow分布式训练场景下,若通过环境变量方式指定资源信息,此环境变量“必选”。
此环境变量不能与RANK_TABLE_FILE、RANK_ID、RANK_SIZE混合使用。
Atlas 训练系列产品
Atlas A2 训练系列产品