Developers
资源

迁移后训练

迁移完成后的训练脚本可在NPU上运行,操作步骤参考如下:

  1. 单击MindStudio菜单栏Run > Edit Configurations...
  2. 进入运行配置界面,参数设置如图1所示。参数设置完成后,单击“OK”
    1. 选择迁移后的训练脚本。
    2. 配置环境变量,单击,打开如图2所示界面,配置训练进程启动依赖的环境变量,参数设置完成后,单击“OK”

      环境变量配置说明请参见表1

    图1 运行配置
    图2 环境变量
    表1 环境变量配置说明

    环境变量

    说明

    User environment variables

    JOB_ID

    训练任务ID,用户自定义,仅支持大小写字母,数字,中划线,下划线。不建议使用以0开始的纯数字。

    ASCEND_DEVICE_ID

    指定昇腾AI处理器的逻辑ID,单P训练也可不配置,默认为0。该样例指定在2卡执行训练。

    RANK_ID

    指定训练进程在集合通信进程组中对应的rank标识序号,单P训练固定配置为0。

    RANK_SIZE

    指定当前训练进程对应的Device在本集群大小,单P训练固定配置为1。

    RANK_TABLE_FILE

    如果用户原始训练脚本中使用了hvd接口或tf.data.Dataset对象的shard接口,需要配置,否则无需配置。

    由于ResNet50原始训练脚本中使用了tf.data.Dataset对象的shard接口,因此需要配置,请指定训练前准备中准备好的配置文件。

    System environment variables

    PYTHONPATH

    请在此配置项末尾追加迁移后的模型所在路径,如“/home/username/MindstudioProjects/MyTraining-tensorflow/models_msft/models_npu_20220927162439”。

  3. 单击,启动训练。

    检查训练过程是否正常,loss是否收敛。

    图3 训练过程截图