通过已集成断点续训的第三方AI平台使用时,用户需按照实际使用情况,进行适配脚本和制作镜像等准备工作后通过平台启动训练任务。
- 制作训练镜像。训练镜像可由平台提供或用户自行准备,若平台需要提供可使用的镜像,可参考制作镜像章节进行操作。
- 适配训练脚本。可参考脚本适配章节进行操作。
- 创建任务。通过平台创建任务。
- 运行训练任务。可通过平台配置并创建训练任务,下发任务后查看结果。
使用样例说明
本文档以通过AI平台ModelArts为例,提供基于MindSpore框架进行模型训练时使用断点续训的示例。ModelArts平台适配断点续训特性的模型有Resnet50和Pangu-alpha。
使用约束
- 使用已预安装Elastic Agent包的自定义镜像(基于ModelArts基础镜像)。
- ModelArts训练作业使用V2版本。
- 使用efs服务挂载远端存储,用于保存模型文件,参考云道文档进行配置。
- 启用obs服务,用于保存训练代码、训练日志、模型文件。
- 将训练代码、训练数据集上传到obs某一目录。
- 确保obs所在区域和ModelArts服务区域相同。