大规模集群场景执行HCCL Test测试工具,报建链失败的错误,但是拆分成小规模集群分别测试正常。
通过环境变量HCCL_CONNECT_TIMEOUT(单位为s)进行设置,建议根据集群组网的规模适当调大。例如:
1 2 3 4 5 | # 3K卡场景 export HCCL_CONNECT_TIMEOUT=240 # 5K卡场景 export HCCL_CONNECT_TIMEOUT=600 |
需要注意,所有机器的OS都需要配置,包括裸机、镜像环境等,配置示例如下:
1 2 | sysctl -w net.core.somaxconn=65535 sysctl -w net.ipv4.tcp_max_syn_backlog=65535 |