昇腾故障案例详情页

服务器出现NPU模组或主板电压异常告警

更新时间: 2024/02/21

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署硬件(Atlas 800T A2 训练服务器)电压异常

问题描述

服务器出现NPU模组或主板电压异常告警。

解决方案

  • 若出现模组相关电压告警,可按照以下步骤检查。
    1. 可尝试将服务器下电至Standby状态(电源按钮/指示灯为黄色常亮)后上电重启设备,观察是否恢复,同时看BMC告警是否明确提示问题根因。
    2. 若将服务器下电至Standby状态(电源按钮/指示灯为黄色常亮)后上电或拔插电源线缆重启设备后,问题均不恢复,仍然存在电压告警,可拆机观察是否有异物落入,是否有明显的短路点。
    3. 如果经过上述操作仍然未解决问题,可执行备件更换流程,更换NPU模组(更换的方法请参见更换NPU模组)。
      1. 更换NPU模组前需联系现场服务人员协助保存相关OS日志,device日志,一键收集日志,plog日志。
      2. 更换NPU模组过程中,拆下NPU模组时注意避免与NPU载板器件撞件,拆下主板时注意避免与硬盘背板器件撞件。
  • 若主板相关电压异常例如主板CPU4 0V8异常,同样可按照12操作解决。
  • 若主板电压告警The power V_VDDQ_CPUx_CD/AB_1V2 failure results host power-on timed out。根据图1插拔对应位置的4根内存条,若拔完内存后告警仍然存在,则说明是主板问题,需要更换主板;若插上某一内存条后出现告警,则说明是内存问题,需要更换内存。
    图1 CPU和内存位置图

本页内容

该页面对您有帮助吗?
我要评分