昇腾社区首页
中文
注册

平台场景说明

通过已集成断点续训的第三方AI平台使用时,用户需按照实际使用情况,进行适配脚本和制作镜像等准备工作后通过平台启动训练任务。

  1. 制作训练镜像。训练镜像可由平台提供或用户自行准备,若平台需要提供可使用的镜像,可参考制作镜像章节进行操作。
  2. 适配训练脚本。可参考脚本适配章节进行操作。
  3. 创建任务。通过平台创建任务。
  4. 运行训练任务。可通过平台配置并创建训练任务,下发任务后查看结果。

使用样例说明

本文档以通过AI平台ModelArts为例,提供基于MindSpore框架进行模型训练时使用断点续训的示例。ModelArts平台适配断点续训特性的模型有ResNet50和Pangu-alpha。

使用约束

  • MindSpore版本应大于或等于1.7.0。
  • 使用已预安装Elastic Agent包的自定义镜像(基于ModelArts基础镜像)。
  • ModelArts训练作业使用V2版本。
  • 使用EFS服务挂载远端存储,用于保存模型文件,参考云道文档进行配置。
  • 启用OBS服务,用于保存训练代码、训练日志、模型文件。
  • 将训练代码、训练数据集上传到OBS某一目录。
  • 确保OBS所在区域和ModelArts服务区域相同。