HCCL_EXEC_TIMEOUT

功能描述

不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景(如仅特定进程会保存checkpoint数据),通过该环境变量可控制设备间执行时同步等待的时间,在该配置时间内各设备进程等待其他设备执行通信同步。

一般情况下,用户保持默认值即可。当默认值无法满足设备间执行通信同步的需求时,可通过此环境变量适当增大设备间的同步等待时间。

配置示例

export HCCL_EXEC_TIMEOUT=1800

使用约束

支持的型号

Atlas 训练系列产品

Atlas 300I Duo 推理卡

Atlas A2 训练系列产品