执行AICORE压测时,进程被killed,导致进程异常终止
问题现象
执行AICORE压测时,进程被killed,导致进程异常终止。
[root@l*****]# ascend-dmi --dg -i aicore -s -q Stress test is being performed,please wait. Killed
原因分析
进程使用的内存超过内存上限,进程被killed导致异常终止。
查看OS系统日志,/var/log/message或/var/log/syslog中含有oom-killer相关日志信息。通过该日志可查看当前进程运行的cgroup组和内存限制信息。
解决措施
- 建议执行命令前请先预留足够内存,防止进程异常中断。可通过free -h命令查询当前系统可用内存。
- 若系统可用内存充足,建议调整cgroup组内存上限阈值。可使用以下命令查询cgroup组内存限制;若使用cgroup v2版本时,配置文件则为memory.max。
/sys/fs/cgroup/memory/${进程运行的cgroup}/memory.limit_in_bytes
父主题: AICORE诊断/压测类