大规模集群场景测试失败,报建链失败的错误,但是拆分成小规模集群分别测试正常。
通过环境变量HCCL_CONNECT_TIMEOUT(单位为s)进行设置,默认值为120s,建议根据集群组网的规模适当调大。例如:
# 3K卡场景 export HCCL_CONNECT_TIMEOUT=240 # 5K卡场景 export HCCL_CONNECT_TIMEOUT=600
需要注意,所有机器的OS都需要配置,包括裸机、镜像环境,配置示例如下:
sysctl -w net.core.somaxconn=65535 sysctl -w net.ipv4.tcp_max_syn_backlog=65535