迁移后训练
迁移完成后的训练脚本可在NPU上运行,操作步骤参考如下:
- 单击MindStudio菜单栏。
- 进入运行配置界面,参数设置如图1所示。参数设置完成后,单击“OK”。
表1 环境变量配置说明 环境变量
说明
User environment variables
JOB_ID
训练任务ID,用户自定义,仅支持大小写字母,数字,中划线,下划线。不建议使用以0开始的纯数字。
ASCEND_DEVICE_ID
指定昇腾AI处理器的逻辑ID,单P训练也可不配置,默认为0。该样例指定在2卡执行训练。
RANK_ID
指定训练进程在集合通信进程组中对应的rank标识序号,单P训练固定配置为0。
RANK_SIZE
指定当前训练进程对应的Device在本集群大小,单P训练固定配置为1。
RANK_TABLE_FILE
如果用户原始训练脚本中使用了hvd接口或tf.data.Dataset对象的shard接口,需要配置,否则无需配置。
由于ResNet50原始训练脚本中使用了tf.data.Dataset对象的shard接口,因此需要配置,请指定训练前准备中准备好的配置文件。
System environment variables
PYTHONPATH
请在此配置项末尾追加迁移后的模型所在路径,如“/home/username/MindstudioProjects/MyTraining-tensorflow/models_msft/models_npu_20220927162439”。
- 单击
,启动训练。
检查训练过程是否正常,loss是否收敛。
图3 训练过程截图


