mbuf入队场景出现OOM报错,返回错误码EL0004
问题现象
执行训练模型脚本过程中出现如下报错:
Error Message is EL0004: Failed to allocate memory. Possible Cause: Available memory is insufficient. Solution: Close applications not in use. TraceBack (most recent call last): rtMemQueueEnQueueBuff execute failed, reason=[driver error:out of memory][FUNC:FuncErrorReason][FILE:error_message_manage.cc][LINE:49] Fail to execute acltdtSendTensor, device is 0, name is 9238275185956894463[FUNC:ReportInnerError][FILE:log_inner.cpp][LINE:145]
原因分析
其他业务同步执行导致可用内存不足。
解决方法
针对内存不足情况,可以参考以下步骤处理:
- 检查环境上业务同步执行情况,暂时关闭其他无关业务。
- 检查脚本中内存申请相关设置,确认是否是batch_size等参数导致需要申请的内存过大,如果是,可适当调整参数。
父主题: getnext问题故障