昇腾故障案例详情页

Atlas 900 A2 PoDc 主板上DIMM内存UCE故障

更新时间: 2024/07/05

暂无评分

问题信息

问题来源产品大类产品子类关键字
现网硬件维护中心训练硬件DIMM内存、UCE故障、critical alarm、0x01000017、现网维护

问题现象描述

硬件配置:Atlas 900 PoDc

问题现象:BMC上报DIMM内存告警“DIMM050 triggered an uncorrectable error”

原因分析

关键过程

sel日志(dump_info\LogDump\remote_log):DIMM050 triggered an uncorrectable error

fdm_output日志(dump_info\LogDump\fdm_output):

根因分析

fdm_log(dump_info\LogDump\fdm_log):

  • 该故障类型为UER(带标记错误或可恢复错误),属于Uncorrected error(UCE,不可纠正错误),该错误被检测到且未被纠正或延迟。
  • DS叫Demand Scrubbing,DS read UCE指的就是CPU指令主动读取内存数据时发生不可纠正错误。
  • 具体故障的部件和地址,DIMM050。

解决措施

结论:内存UCE故障

解决方案:更换内存

本页内容

该页面对您有帮助吗?
我要评分