FAQ
模型训练时报错提示dev cache overflow
模型训练报错,显示错误码E40021
模型训练报错,显示错误码E30008
模型训练报错,提示init tbe error
Arm环境下训练或跑python测试用例报错libgomp.so.1: cannot allocate memory in static TLS block
HCCL集群通信失败
在ARM环境下,使用Rec SDK进行模型训练报错
在使用Rec SDK跑推荐模型时,提示ModuleNotFoundError:No module named 'mxrec_pybind'
在estimator模式下,执行train_and_evaluate时提示显存不足