FAQ
多机训练HCCL集群通信失败
在ARM环境下,使用Rec SDK进行模型训练报错
在使用Rec SDK跑推荐模型时,提示ModuleNotFoundError:No module named 'mxrec_pybind'
在Estimator模式下,执行train_and_evaluate时提示显存不足