昇腾故障案例详情页

在进行模型分布式训练时遇到报错“host not found.”

更新时间: 2023/06/06

暂无评分

问题信息

问题来源产品大类关键字
官方模型训练--

问题现象描述

  • 报错截图

  • 报错文本
    ……
    Process process 6:
    Traceback (most recent call last):
    ……
    ValueError: host not found: Name or service not known
    Process process 7:
    ……

原因分析

对模型进行分布式训练时,会调用集合通信模块HCCL,需要根据实际情况设置IP和端口信息。根据报错信息,确定是IP地址设置错误。

解决措施

在运行脚本中设置正确的IP地址,对于单机情况,设置为本机的IP地址即可;对于多机情况,每个服务器上脚本中的IP需要设置为master节点的IP。

本页内容

该页面对您有帮助吗?
我要评分