HCCL_EXEC_TIMEOUT

功能描述

用于限制不同设备之间执行时同步等待时间,默认值600s。取值范围[60,17340]。

不同设备进程在分布式训练过程中存在卡间执行任务不一致(如仅特定进程保存checkpoint数据)。该环境变量控制设备间执行时同步等待阈值,在该配置时间内各设备进程等待其他设备执行通信同步。

配置示例

export HCCL_EXEC_TIMEOUT=1800