昇腾故障案例详情页

Atlas 800-9010 Ubuntu18.04.1系统 NMI wachdog超时触发hard LOCKUP导致系统挂死

更新时间: 2022/03/03

暂无评分

问题信息

问题来源产品大类产品子类关键字
实验室问题安装部署驱动固件挂死、Ubuntu18.04.1;NMI watchdog、hard LOCKUP

问题现象描述

系统挂死或出现panic,日志打印NMI watchdog: Watchdog detected hard LOCKUP on cpu 12

关键过程、根本原因分析

1. 查看日志,日志的call trace信息指向nvme驱动的中断处理模块

2. 根因参考Ubuntu已知bug

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1810998

3. 复现方案。

root@ubuntu:~# fdisk /dev/nvme0n1 #创建分区

root@ubuntu:~# mkfs.ext4 /dev/nvme0n1p1

root@ubuntu:~# mkdir /nvme

root@ubuntu:~# mount /dev/nvme0n1p1 /nvme/

root@ubuntu:~# cd /nvme

root@ubuntu:/nvme# iozone -R -s 5G -r 1m -S 2048 -i 0 -G -c -o -l 128 -u 128 -t 128

结论、解决方案及效果

结论:ubuntu 4.15.0-29-generic内核版本存在nvme驱动相关bug,需要修复。

建议:1、升级内核版本至ubuntu 4.15.0-112-generic

2、放弃使用Ubuntu18.04.4.1采用Ubuntu18.04.5等新版本的操作系统。

经验总结、预防措施和规范建议

备注

本页内容

该页面对您有帮助吗?
我要评分