在AI平台ModelArts上基于MindSpore框架进行模型训练时,使用断点续训功能。
使用约束
- Mindspore版本应大于或等于1.7.0。
- 使用已预安装mindx_elastic包的自定义镜像(基于ModelArts基础镜像)。
- ModelArts训练作业使用V2版本。
- 使用efs服务挂载远端存储,用于保存模型文件,参考云道文档进行配置。
- 启用obs服务,用于保存训练代码、训练日志、模型文件。
- 将训练代码、训练数据集上传到obs某一目录。
- 确保obs所在区域和ModelArts服务区域相同。