用于限制不同设备之间任务执行时同步等待的时间,取值范围为:[68,17340],默认值1800s,单位为s。
不同设备进程在分布式训练过程中存在卡间执行任务不一致的场景(如仅特定进程保存checkpoint数据),该环境变量可控制设备间执行时同步等待阈值,在该配置时间内各设备进程等待其他设备执行通信同步。
注意:系统实际设置的超时时间 = 环境变量的取值 // 68 * 68,单位s;如果环境变量的取值小于68,则默认按照68s进行处理。
例如,假设HCCL_EXEC_TIMEOUT = 600,则系统实际设置的超时时间为 600//68*68 = 8*68 = 544s。
export HCCL_EXEC_TIMEOUT=1800