昇腾故障案例详情页

在进行模型分布式训练时遇到报错“RuntimeError:connect() timed out.”

更新时间: 2023/06/06

暂无评分

问题信息

问题来源产品大类关键字
官方模型训练--

问题现象描述

  • 报错截图

  • 报错文本
    Traceback (most recent call last):
    ……
    Exception:
    
    -- Process 1 terminated with the following error:
    Traceback (most recent call last):
    ……
    RuntimeError: connect() timed out.

原因分析

模型进行分布式训练时,系统防火墙可能会阻截HCCL的集合通信端口的通信。需要根据报错信息,排查通信端口的开放情况,并进行相应设置。

解决措施

查询出被系统防火墙阻截的集合通信端口,并开放相应端口。

本页内容

该页面对您有帮助吗?
我要评分