mbuf入队场景出现OOM报错,返回错误码EL0004

问题现象

执行训练模型脚本过程中出现如下报错:

Error Message is
EL0004: Failed to allocate memory.
Possible Cause: Available memory is insufficient.
Solution: Close applications not in use.
TraceBack (most recent call last):
rtMemQueueEnQueueBuff execute failed, reason=[driver error:out of memory][FUNC:FuncErrorReason][FILE:error_message_manage.cc][LINE:49]
Fail to execute acltdtSendTensor, device is 0, name is 9238275185956894463[FUNC:ReportInnerError][FILE:log_inner.cpp][LINE:145]

原因分析

其他业务同步执行导致可用内存不足。

解决方法

针对内存不足情况,可以参考以下步骤处理:

  1. 检查环境上业务同步执行情况,暂时关闭其他无关业务。
  2. 检查脚本中内存申请相关设置,确认是否是batch_size等参数导致需要申请的内存过大,如果是,可适当调整参数。