EJ0002打屏报错

问题现象

拉起训练进程时,报“EJ0002 Environment Error”,此报错通常由于环境异常,导致rdev初始化失败,拉起训练进程失败。

查看HCCP初始化ra_rdev阶段报错,对应HDC接口报错信息为:ra hdc message process failed ret(-67)
1
2
[ERROR] HCCP(46430,alltoallv_test):2023-09-21-03:43:49.546.469 [ra hdc.c:1270]tid:46430,ra_hdc_rdev_init(1270) : [init][ra_hdc_rdev]ra hdc message process failed ret(-67) phy_id(3)
[ERROR] HCCP(46430,alltoallv_test):2023-09-21-03:43:49.546.488 [ra_host.c:621]tid:46430,ra_rdev_init(621) : [init][ra_rdev]ra rdev init failed. ret(-67)

原因分析

网卡down导致初始化时,HCCP调用HDC接口返回“-67”,对应错误码定义(#define ENOLINK 67 /* Link has been severed */)。

解决方法

  1. 执行如下命令,检查网口状态。
    for i in {0..7}; do hccn_tool -i $i -link -g ; done
  2. 用户自行排查物理链路是否连通,检查软件配置是否正确。
    • 重新配置ip和netmask,排除未配置IP地址的情况。
      hccn_tool -a -cfg recovery

      基于/etc/hccn.conf中配置恢复环境配置。

    • 查询光模块是否在位。
      for i in {0..7}; do hccn_tool -i $i -optical -g; done
    • 查询交换机信息,排除交换机信息缺失的情况。
      for i in {0..7}; do hccn_tool -i $i -lldp -g; done
    • 咨询环境人员光纤类型,确认交换机是否打开了对应的FEC策略、CDR版本是否过老需要升级、是否光模块问题,将有问题的光模块以及光纤和无问题的交换验证。