昇腾故障案例详情页

Atlas A2 训练系列产品BMC上报告警0x80E18005

更新时间: 2024/06/19

暂无评分

问题信息

问题来源产品大类产品子类关键字
现网硬件维护中心训练硬件0x80E18005、DQ Parity、现网维护

问题现象描述

硬件配置:Atlas A2 训练系列产品

问题现象:BMC的sel日志或者BMC的web监控告警页面出现类似如下的告警,告警码为0x80e18005。
On the AI module, NPU Board4 NPU1 health state is degraded.Error Code: 0x80e18005 (BN:xxxx).

原因分析

关键过程:

  1. 在Ascend HDK 23.0.5版本之前(升级到Ascend HDK 23.0.5或者Ascend HDK 24.1.RC1及以上版本,拆分为两个错误码DQ(0x80E1800F)和CA(0x80E18005),其中0x80E1800F为提示级别,如图1),该故障在《 Atlas A2 中心推理和训练硬件 {版本号} 健康管理故障定义》中是HBMC parity故障(如图3),需要区分是ca parity error还是dq parity error。
    图1 Ascend HDK 23.0.5之前版本故障码描述1
    图2 Ascend HDK 23.0.5之前版本故障码描述2(接上图)
    图3 Ascend HDK 23.0.5、Ascend HDK 24.1.RC1及之后版本故障码描述1
    图4 Ascend HDK 23.0.5、Ascend HDK 24.1.RC1及之后版本故障码描述2(接上图)

  2. 收集BMC日志并解压。
  3. 根据服务器形态,进入对应目录。
    • 非Atlas 200T A2 Box16 异构子框服务器,进入“dump_info\LogDump”目录。
    • Atlas 200T A2 Box16 异构子框服务器,进入目录“dump_info\AppDump\card_manage”,解压aimodule.tar.gz文件后,在当前目录下再进入到“dump_info\LogDump”目录。
  4. 查看fdm_log文件中,根据0x80e18005告警码上报的时间,找到类似下面内容,寻找IERRCODE后的错误。
    • 如下所示,是dq parity error
      ...
      [Error Log Number]: 346    Time: 2024-04-15 19:29:57 UTC+08:00
      HAM: 4    Mode: AMP    Collect: IMU(INT)    Serial Number: 27    Collect Integrity: Validate(0X00)
      Socket: NPU1    DIE: Vitruvian0    Module: HBMC0    Sub Module: HBMC Controller14    
      ----------------------- NPU ARER REPORTING ERROR -----------------------
      Error Type:Uncorrected error, Signaled or Recoverable error (UER)
      SERRCODE: 0X0A (Refer to IERRCODE)
      IERRCODE: 0XEB (read dq parity error)
      ...
    • 如下所示,是ca parity error
      ...
      [Error Log Number]: 211    Time: 2024-04-15 19:29:45 UTC+08:00
      HAM: 4    Mode: AMP    Collect: IMU(INT)    Serial Number: 21    Collect Integrity: Validate(0X00)
      Socket: NPU1    DIE: Vitruvian0    Module: HBMC0    Sub Module: HBMC Controller14    
      ----------------------- NPU ARER REPORTING ERROR -----------------------
      Error Type:Uncorrected error, Signaled or Recoverable error (UER)
      SERRCODE: 0X0A (Refer to IERRCODE)
      IERRCODE: 0XEB (read ca parity error)
      ...

解决措施

结论:

dq parity error或者ca parity error

解决方案:

  • dq parity error
    1. 选择下面其中一种方式观察是否有NPU片上内存多bit ecc告警。
      • 带内执行npu-smi相关命令,查看是否有0x80e01801告警码。
        # id表示设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。
        npu-smi info -t health -i id -c 0
      • BMC日志中观察上下文附近是否有0x80e01801告警码。
    2. 根据上一步结果
      1. 没有0x80e01801告警码,则BMC日志中的0x80e18005告警码可忽略,不用处理,不影响业务。
      2. 有0x80e01801告警码,则执行NPU片上内存(也叫HBM)故障运维流程,需要安装toolbox软件包,可参考toolbox安装使用指导
        图5 故障运维流程
  • ca parity error

    重启观察是否告警消除,错误码消失,可以继续使用;如果告警未消除或者错误码在重启后多次出现,建议更换备件。

本页内容

该页面对您有帮助吗?
我要评分