昇腾故障案例详情页

NPU HBM ECC故障

更新时间: 2024/02/21

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署硬件(Atlas 800T A2 训练服务器)HBM ECC

问题描述

NPU HBM ECC错误。存在多种表现形式,当前一般表现为以下现象。

  1. NPUx CRITICAL ALARM,通常在BMC WEB告警界面出现,如图1所示。
    图1 告警信息
  2. NPUx芯片出现degrade告警,但告警码指向单device出现多BIT HBM ECC错误,典型告警码包含以下两种:
    • 0x80E18401:单个Device的HBM多bit ECC隔离地址记录超过16个,如图2所示。
      图2 告警信息
    • 0x80E01801:HBM故障地址在线隔离失败。
  3. 业务现象:NPU HBM多比特ECC发生后体现在业务执行过程中出现AICore执行算子失败。
  4. 日志现象:BMC日志“dump_info/AppDump/CpuMem/npu_ecc_info.json”对应时间点有MultiBitEcc记录,如下图所示。

    当NPU多比特ECC隔离页满64页后,BMC会产生“NPU chip health critical”紧急告警。

解决方案

  • 多bit HBM ECC出现相关报错。
    1. 联系现场服务人员协助收集msnpureport -f日志。
    2. 重启服务器。
    3. 通过如下命令查询HBM Double Bit Isolate Pages Count参数值。

      npu-smi info -t ecc -i x -c x

      x为NPU编号。

      回显示例如下图所示。

    4. 判断HBM Double Bit Isolate Pages Count参数值是否大于或等于64。
      1. 是:更换NPU模组。
      2. 否:重启服务器恢复。
  • 单bit HBM ECC出现相关报错。
    1. 通过如下命令查询HBM Double Bit Isolate Pages Count参数值。

      npu-smi info -t ecc -i x

      x为NPU编号。

      回显示例如下图所示。

    2. 持续观察,不进行操作或更换。

本页内容

该页面对您有帮助吗?
我要评分