Atlas 800-9010 Ubuntu18.04.1系统 NMI wachdog超时触发hard LOCKUP导致系统挂死
2022/03/03
78
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
实验室问题 | 安装部署 | 驱动固件 | 挂死、Ubuntu18.04.1;NMI watchdog、hard LOCKUP |
问题现象描述
系统挂死或出现panic,日志打印NMI watchdog: Watchdog detected hard LOCKUP on cpu 12
关键过程、根本原因分析
1. 查看日志,日志的call trace信息指向nvme驱动的中断处理模块
2. 根因参考Ubuntu已知bug
https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1810998
3. 复现方案。
root@ubuntu:~# fdisk /dev/nvme0n1 #创建分区
root@ubuntu:~# mkfs.ext4 /dev/nvme0n1p1
root@ubuntu:~# mkdir /nvme
root@ubuntu:~# mount /dev/nvme0n1p1 /nvme/
root@ubuntu:~# cd /nvme
root@ubuntu:/nvme# iozone -R -s 5G -r 1m -S 2048 -i 0 -G -c -o -l 128 -u 128 -t 128
结论、解决方案及效果
结论:ubuntu 4.15.0-29-generic内核版本存在nvme驱动相关bug,需要修复。
建议:1、升级内核版本至ubuntu 4.15.0-112-generic
2、放弃使用Ubuntu18.04.4.1采用Ubuntu18.04.5等新版本的操作系统。
经验总结、预防措施和规范建议
无
备注
无
本页内容