执行分布式训练时,出现get rank id error错误
问题现象
屏显信息出现“get rank id error”的错误,如下所示:
查看Host日志,出现“Call hcom_bind_model failed”的错误信息,如下所示:
原因分析
集合通信的管理类python接口需要在完成集合通信初始化之后调用,才能正常执行。
父主题: 模型训练问题(TensorFlow网络)
屏显信息出现“get rank id error”的错误,如下所示:
查看Host日志,出现“Call hcom_bind_model failed”的错误信息,如下所示:
集合通信的管理类python接口需要在完成集合通信初始化之后调用,才能正常执行。