用于限制不同设备之间执行时同步等待时间,默认值600s。取值范围[60,17340]。
不同设备进程在分布式训练过程中存在卡间执行任务不一致(如仅特定进程保存checkpoint数据)。该环境变量控制设备间执行时同步等待阈值,在该配置时间内各设备进程等待其他设备执行通信同步。
export HCCL_EXEC_TIMEOUT=1800