下载
EN
注册
在estimator模式下,执行train_and_evaluate时提示显存不足

在estimator模式下,执行train_and_evaluate时提示显存不足

2025/01/07

130

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练Rec SDKestimator模式;显存不足

问题现象描述

在estimator模式下,执行train_and_evaluate时报错,提示显存不足:Sum of total mem_offset:26496001536 and var_mem_size:11776003072 is greater than memory manager malloc max size 33285996544

原因分析

在train_and_evaluate模式下,若未启用动态扩容会两次建表,如果表特别大的话可能会导致显存不足。

解决措施

可以改成扩容模式进行规避,扩容模式只会建一次表;或者减小batch size。

本页内容