昇腾社区首页
中文
注册

多卡服务化分布式推理时缺失环境变量MASTER_ADDR或MASTER_PORT

问题现象描述

当模型在模型侧使用torch.distributed多卡分布时,从服务侧拉起出现没有MASTER_ADDR或者MASTER_PORT环境变量:

原因分析

没有设置环境变量MASTER_ADDR或MASTER_PORT。

解决措施

可以通过如下两种方式设置环境变量:

  • 在代码中设置:

    import os

    os.environ['MASTER_ADDR'] = 'localhost'

    os.environ['MASTER_PORT'] = '5678'

  • 通过环境变量设置:

    export MASTER_ADDR=localhost

    export MASTER_PORT=5678