问题现象描述
- 报错文本
Traceback (most recent call last): …… Exception: -- Process 1 terminated with the following error: Traceback (most recent call last): …… RuntimeError: connect() timed out.
原因分析
模型进行分布式训练时,系统防火墙可能会阻截HCCL的集合通信端口的通信。需要根据报错信息,排查通信端口的开放情况,并进行相应设置。
解决措施
查询出被系统防火墙阻截的集合通信端口,并开放相应端口。




