Atlas 800-9000 EulerOS 2.8系统,fio压测时OS发生softlockup重启
2023/06/26
141
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
实验室问题 | 安装部署 | 驱动固件 | fio、softlockup、EulerOS |
问题现象描述
硬件配置:内存(24*32G)网卡(4*100G)系统盘(PM883 480G)数据盘(1*PM883 480G, 7*960G SAS, 1*3.84T SAS)
问题现象:ascend-dmi 工具同时对 NPU、硬盘、网卡、CPU 和内存进行压力测试,压测 25 小时后 OS 发生 soft lockup,打印日志如下:
关键过程、根本原因分析
具体请参见结论、解决方案及效果。
结论、解决方案及效果
结论:fio 压力超过磁盘处理能力极限,导致 io 处理流程较长,最终发生 softlockup。
解决方案:
针对 fio 压测场景(其他场景保持默认或按其他说明配置)可执行如下措施:
延长 softlockup 触发时间和关闭 softlockup panic 设置(即发生 softlockup 时,系统不重启)。
1. 临时修改(重启会恢复默认配置)
执行如下命令:
sysctl -w kernel.watchdog_print_period=60
sysctl -w kernel.watchdog_thresh=30
sysctl -w kernel.softlockup_panic=0
2. 永久修改
添加如下配置到 /etc/sysctl.conf 文件中,然后执行 sysctl -p。
kernel.watchdog_print_period=60
kernel.watchdog_thresh=30
kernel.softlockup_panic=0
3. 验证方法
执行如下命令,查看执行结果。
sysctl -a | grep -E "watchdog_print_period|watchdog_thresh|softlockup_panic"
查看输出数值是否为设置数值。
经验总结、预防措施和规范建议
无
备注
无
本页内容