昇腾社区首页
中文
注册

执行AICORE压测时,进程被killed,导致进程异常终止

问题现象

执行AICORE压测时,进程被killed,导致进程异常终止。

[root@l*****]# ascend-dmi --dg -i aicore -s -q
Stress test is being performed,please wait.
Killed

原因分析

进程使用的内存超过内存上限,进程被killed导致异常终止。

查看OS系统日志,/var/log/message/var/log/syslog中含有oom-killer相关日志信息。通过该日志可查看当前进程运行的cgroup组和内存限制信息。

解决措施

  1. 建议执行命令前请先预留足够内存,防止进程异常中断。可通过free -h命令查询当前系统可用内存。

  2. 若系统可用内存充足,建议调整cgroup组内存上限阈值。可使用以下命令查询cgroup组内存限制;若使用cgroup v2版本时,配置文件则为memory.max。
    /sys/fs/cgroup/memory/${进程运行的cgroup}/memory.limit_in_bytes