启动训练参数保持与单卡CPU形态一致
该迁移点通常是要求您修改启动脚本时的分布式相关参数。
当前版本我们需要您以单卡CPU的形态启动训练,这句话的含义是指,在昇腾AI处理器上启动训练时,保持与在单卡CPU上启动训练时的参数一致。
设计良好的脚本不会对部署形态做任何假设,配置脚本部署形态为单卡CPU通常只是启动脚本时入参的调整。
这里需要您评估脚本的启动参数,如果脚本支持传入分布式策略,请传入单卡分布式策略(OneDeviceStrategy)。如果支持配置GPU的数量,请配置为0。
我们希望您这么做是因为:
- 单卡CPU的部署形态与NPU的单卡训练形态一致,TF Adapter可以看到较为纯净的训练过程,使得迁移成功率大大提高。
- 可以屏蔽原有脚本默认分布式策略的干扰,使得分布式迁移成功率大大提高。
父主题: 手工迁移