NPU HBM ECC故障
更新时间: 2024/02/21
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 硬件(Atlas 800T A2 训练服务器) | HBM ECC |
问题描述
NPU HBM ECC错误。存在多种表现形式,当前一般表现为以下现象。
- NPUx CRITICAL ALARM,通常在BMC WEB告警界面出现,如图1所示。
- NPUx芯片出现degrade告警,但告警码指向单device出现多BIT HBM ECC错误,典型告警码包含以下两种:
- 0x80E18401:单个Device的HBM多bit ECC隔离地址记录超过16个,如图2所示。
- 0x80E01801:HBM故障地址在线隔离失败。
- 业务现象:NPU HBM多比特ECC发生后体现在业务执行过程中出现AICore执行算子失败。
- 日志现象:BMC日志“dump_info/AppDump/CpuMem/npu_ecc_info.json”对应时间点有MultiBitEcc记录,如下图所示。
当NPU多比特ECC隔离页满64页后,BMC会产生“NPU chip health critical”紧急告警。
解决方案
- 多bit HBM ECC出现相关报错。
- 单bit HBM ECC出现相关报错。
本页内容