HCCL_EXEC_TIMEOUT

功能描述

不同设备进程在分布式训练过程中存在卡间执行任务不一致的场景(如仅特定进程会保存checkpoint数据),通过该环境变量可控制设备间执行时同步等待的时间,在该配置时间内各设备进程等待其他设备执行通信同步。

配置示例

export HCCL_EXEC_TIMEOUT=1800