昇腾故障案例详情页

Atlas 900 A2 PoD OOM导致BMC报警0x8C2FA001

更新时间: 2024/06/19

暂无评分

问题信息

问题来源产品大类产品子类关键字
现网硬件维护中心训练硬件0x8C2FA001、OOM、现网维护

问题现象描述

硬件配置:Atlas 900 RCK A2 计算节点

问题现象:存在“NPU Board3 NPU has a major problem.Error Code:8C2FA001”告警。

原因分析

关键过程:

  1. 查看bmc日志dump_info\AppDump\sensor_alarm\sel.tar,日志有NPU Board3 NPU has a major problem。

  2. BMC带外日志未见硬件故障,收集带内日志。npu-smi info命令如下。

  3. 发现NPU1~NPU7都有故障码8C2FA001,在《Atlas A2 智能边缘硬件 23.0.3 健康管理故障定义》搜索0x8C2FA001,查看该故障码详细信息。
    图1 0x8C2FA001故障码描述1
    图2 0x8C2FA001故障码描述2(接上图)

根本原因分析:用户侧内存超限导致的oom告警。

解决措施

结论:查看带外日志未发现硬件故障,带内查询NPU7卡状态异常,Error Code:8C2FA001,为用户侧内存超限导致的oom告警。

解决方案:无硬件故障,短期带内reboot重启消除告警,长期建议客户或业务调整业务内存用度后使用。建议升级到Ascend HDK 23.0.5以上版本,Ascend HDK 23.0.5增加了device-os镜像空间预留内存,可以解决oom时,npu-smi info查询丢卡或卡住的问题。

本页内容

该页面对您有帮助吗?
我要评分