执行训练

前提条件

在多Device上执行训练

在多个Device上进行分布式训练时,需要依次拉起所有训练进程,下面以单机两个Device的训练场景举例介绍如何拉起各训练进程。用户可以在不同的shell窗口依次拉起不同的训练进程。

  1. 拉起训练进程0:

    1. 配置除资源信息环境变量以外的其他环境变量。
      # 请依据实际在下列场景中选择一个进行训练依赖包安装路径的环境变量设置。具体如下(以HwHiAiUser安装用户为例):
      # 场景一:昇腾设备安装部署开发套件包Ascend-cann-toolkit(此时开发环境可进行训练任务)。
      . /home/HwHiAiUser/Ascend/ascend-toolkit/set_env.sh 
      # 场景二:昇腾设备安装部署软件包Ascend-cann-nnae。
      . /home/HwHiAiUser/Ascend/nnae/set_env.sh 
      
      # tfplugin包依赖。
      . /home/HwHiAiUser/Ascend/tfplugin/set_env.sh
      
      # 若运行环境中存在多个python3版本时,需要在环境变量中配置python的安装路径。如下配置以安装python3.7.5为例,可根据实际修改。
      export PATH=/usr/local/python3.7.5/bin:$PATH
      export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH
      
      # 当前脚本所在路径,例如:
      export PYTHONPATH=/home/test:$PYTHONPATH
      export JOB_ID=10086
      export ASCEND_DEVICE_ID=0
    2. 拉起训练脚本。

      python3 /home/xxx.py

  2. 拉起训练进程1:

    1. 配置除资源信息环境变量以外的其他环境变量。
      # 请依据实际在下列场景中选择一个进行训练依赖包安装路径的环境变量设置。具体如下(以HwHiAiUser安装用户为例):
      # 场景一:昇腾设备安装部署开发套件包Ascend-cann-toolkit(此时开发环境可进行训练任务)。
      . /home/HwHiAiUser/Ascend/ascend-toolkit/set_env.sh 
      # 场景二:昇腾设备安装部署软件包Ascend-cann-nnae。
      . /home/HwHiAiUser/Ascend/nnae/set_env.sh 
      
      # tfplugin包依赖。
      . /home/HwHiAiUser/Ascend/tfplugin/set_env.sh
      
      # 若运行环境中存在多个python3版本时,需要在环境变量中配置python的安装路径。如下配置以安装python3.7.5为例,可根据实际修改。
      export PATH=/usr/local/python3.7.5/bin:$PATH
      export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH
      
      # 当前脚本所在路径,例如:
      export PYTHONPATH=/home/test:$PYTHONPATH
      export JOB_ID=10086
      export ASCEND_DEVICE_ID=1

      若训练所在系统环境需要升级gcc(例如CentOS、Debian和BClinux系统),则此处动态库查找路径需要添加“${install_path}/lib64”,其中“{install_path}”为gcc升级安装路径。请参见5

    2. 拉起训练脚本。

      python3 /home/xxx.py