如何通过Device日志获取故障ID并排查RAS硬件故障
图1 排查流程

- 在Host侧服务器上,通过msnpureport工具导出Device系统类日志,包括slog日志、syslog日志、黑匣子等。msnpureport工具命令示例如下,其中/usr/local/Ascend是驱动包的默认安装路径,请根据实际情况替换。
/usr/local/Ascend/driver/tools/msnpureport -f
导出的Device日志默认存放在/var/log/npu/report目录下。
- 从1中收集的slog日志中,在report/*/slog/dev-os-id/debug/device-os/device-os_*.log目录下找到发生AI Core Error问题附近时间、对应Device的系统日志,检查日志中是否存在“event_id”关键字,若不存在,则跳转到3继续排查;若存在,则单击Link查找对应产品的《健康管理故障定义》并查阅其中的解决方法。
- 从1中收集的黑匣子日志中,在report/*/hisi_logs目录下找到发生AI Core Error问题附近时间、对应Device的黑匣子日志,检查日志中是否存在“Hardware Error”关键字,若不存在,则表示暂未识别到硬件故障;若存在,表示未知硬件问题,需联系进一步定位处理。
Device侧系统类日志(包括slog日志、syslog日志、黑匣子等)通过使用msnpureport工具导出到Host侧,然后再拷贝至aic_err_info目录下:
# 在Host上有读写权限的目录下(例如${HOME}/ascend/report)执行msnpureport命令 Driver安装目录/driver/tools/msnpureport -f #拷贝日志文件到aic_err_info目录 mv ${HOME}/ascend/report aic_err_info/
父主题: 常用日志定位操作