问题现象描述
当模型在模型侧使用torch.distributed多卡分布时,从服务侧拉起出现没有MASTER_ADDR或者MASTER_PORT环境变量:

原因分析
没有设置环境变量MASTER_ADDR或MASTER_PORT。
解决措施
可以通过如下两种方式设置环境变量:
- 在代码中设置:
import os
os.environ['MASTER_ADDR'] = 'localhost'
os.environ['MASTER_PORT'] = '5678'
- 通过环境变量设置:
export MASTER_ADDR=localhost
export MASTER_PORT=5678