昇腾故障案例详情页

Atlas 200T A2 Box16 异构子框带内Device12掉卡

更新时间: 2024/06/04

暂无评分

问题信息

问题来源产品大类产品子类关键字
现网安装部署驱动固件Atlas 200T A2 Box16、NPU掉卡、HCCS链路故障、HDLC重传超次、HPCS、现网维护

问题现象描述

硬件配置:Atlas 200T A2 Box16 异构子框

问题现象:带内Device12掉卡

原因分析

关键过程:

  1. 执行lspci | grep d802命令查看NPU建链情况,若NPU建链正常,则需排查驱动侧。NPU建链正常示意图如下。

  2. 查看Device12的Device日志中的kernel.log,查看日志最下面的打印或搜索关键字“fatal”、“panic”、“Hardware error”等。

    日志路径示例:\2024-04-18-10-01-23\hisi_logs\device-12\20240418100328-405328000\log\kernel.log

  3. 分析搜索到的RAS打印中的寄存器信息,f表示HDLC模块,20表示HDLC重传超次,buffer溢出。

  4. 查看BMC日志的fdm_output日志,Device11有大量HPCS3报错,Device12与Device11的HCCS链路阻塞,Device12 HDLC重传超次。

    日志路径:dump_info\AppDump\card_manage\aimodule\dump_info\LogDump\fdm_output

解决措施

结论:

Device11与Device12间的HCCS链路故障。

解决方案:

更换Atlas 200T A2 Box16 异构子框。

本页内容

该页面对您有帮助吗?
我要评分