昇腾故障案例详情页

CPU软锁(soft lockup)问题

更新时间: 2024/02/21

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署操作系统CPU软锁(soft lockup)

问题描述

执行模型训练或其他指令时,watchdog打印CPU软锁(soft lockup)告警如下图所示。

原因分析

OS配置了串口重定向,导致过多日志输出到串口,而串口波特率较小(115200),进而导致CPU软锁。初步怀疑是ts_agent的日志输出过多(1s打印了80多个)导致。

解决方案

  1. 关闭系统串口重定向。

    1. 把“/etc/default/grub”文件中“console=tty0”参数修改成“rhgb quiet”,关闭linux的启动日志输出。

    2. 执行如下命令重新生成GRUB配置文件。并重启服务器reboot后生效。

      grub2-mkconfig -o /boot/efi/EFI/ctyunos/grub.cfg

  2. 提高日志级别。

    • 临时提高日志级别。

      执行如下命令,重启后失效。

      echo '3 3 1 7' > /proc/sys/kernel/printk

    • 永久提高日志级别。
      1. 执行如下命令, 进入“/etc/sysctl.conf”。

        vim /etc/sysctl.conf

      2. 在文件最后加上kernel.printk=xxxx(要设置的日志等级,例如kernel.printk=3317)。

本页内容

该页面对您有帮助吗?
我要评分