服务器出现NPU模组或主板电压异常告警
2024/02/21
193
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 硬件(Atlas 800T A2 训练服务器) | 电压异常 |
问题描述
服务器出现NPU模组或主板电压异常告警。
解决方案
- 若出现模组相关电压告警,可按照以下步骤检查。
- 可尝试将服务器下电至Standby状态(电源按钮/指示灯为黄色常亮)后上电重启设备,观察是否恢复,同时看BMC告警是否明确提示问题根因。
- 若将服务器下电至Standby状态(电源按钮/指示灯为黄色常亮)后上电或拔插电源线缆重启设备后,问题均不恢复,仍然存在电压告警,可拆机观察是否有异物落入,是否有明显的短路点。
- 如果经过上述操作仍然未解决问题,可执行备件更换流程,更换NPU模组(更换的方法请参见更换NPU模组)。
- 更换NPU模组前需联系现场服务人员协助保存相关OS日志,device日志,一键收集日志,plog日志。
- 更换NPU模组过程中,拆下NPU模组时注意避免与NPU载板器件撞件,拆下主板时注意避免与硬盘背板器件撞件。
- 若主板相关电压异常例如主板CPU4 0V8异常,同样可按照1和2操作解决。
- 若主板电压告警The power V_VDDQ_CPUx_CD/AB_1V2 failure results host power-on timed out。根据图1插拔对应位置的4根内存条,若拔完内存后告警仍然存在,则说明是主板问题,需要更换主板;若插上某一内存条后出现告警,则说明是内存问题,需要更换内存。
本页内容