HCCL_CONNECT_TIMEOUT
功能描述
分布式训练或推理场景下,用于限制不同设备之间socket建链过程的超时等待时间。不同设备进程在集合通信初始化之前由于其他因素会导致执行不同步。该环境变量控制设备间的建链超时等待时间,在该配置时间内各设备进程等待其他设备建链同步。
该环境变量需要配置为整数,取值范围[120,7200],默认值为120,单位s。
需要注意的是:实际的建链超时等待时间是该环境变量的值加上20秒。例如,如果该环境变量设置为150秒,则实际的超时等待时间为170秒。额外的20秒用于通知各个节点通信域初始化失败的原因。
配置示例
export HCCL_CONNECT_TIMEOUT=200
使用约束
无
支持的型号
Atlas 300I Duo 推理卡
父主题: 集合通信