任务启动流程
- 打开云道ModelArts平台,训练管理页面选择 。
- 点击“创建训练作业”。
- 根据页面提示填写或选择必选项。
- 创建Pangu-alpha训练任务,模型存储采用OBS,具体参数含义和配置请参考云道文档和下方表1。
- 创建Pangu-alpha训练任务,模型存储采用EFS,具体参数含义和配置请参考云道文档和下方表1。
表1 参数说明与配置 参数
参数说明与配置
地域
选择训练资源对应的选项。
作业名称/ID
用户自行配置。
数据来源
选择“私有数据”。
作业集群类型
选择“同构集群”。
算法
选择“自定义镜像”。
自定义镜像
用户上传已预安装Elastic Agent包的“自定义镜像”:
- 在昇腾镜像仓库下载指定的训练镜像或者按照制作镜像章节指引构建训练镜像。使用命令“docker save 镜像名 > xxx.tar”保存镜像文件至本地。
- 将本地的自定义镜像上传至云道平台OBS存储,具体方法参考云道文档。
- 在云道ModelArts平台镜像管理页面创建镜像,选择对应的地域,配置镜像名称、镜像版本,镜像类型选择“自定义上传”,存储位置选择上一步骤的OBS存储路径。
选择已上传的镜像和对应版本。
运行命令
选择“预置命令”。
AI引擎
选择“Ascend-Powered-Engine”,“mindspore_1.6.1-cann_5.0.4-py_3.7-euler_2.8.3-aarch64”。
代码目录
选择OBS中训练脚本存储的根目录,代码示例参考脚本适配。
启动文件
选择OBS中训练任务的启动脚本,例如train.py。
运行参数
根据具体的训练任务进行配置。
环境变量
配置如下:
- “MA_TERMINATION_GRACE_PERIOD_SECONDS”,训练任务优雅退出时间,根据模型规模进行配置。
- “CHECKPOINT_PATH”,当存储类型为EFS时,填写模型存储的EFS路径,根据用户配置的“本地挂载地址”进行设置;当存储类型为OBS时,不需要配置此项。
训练输入
勾选“数据存储位置”,选择数据集存储的OBS路径。
“代码路径参数”默认为“data_url”,需要保持默认。
当存储类型为OBS时,点击“+”按钮,添加一个输入参数,参数名设置为“checkpoint_url”。
训练输出
如果存储类型为EFS,不进行勾选。
如果存储类型为OBS,选择OBS对应的路径用于保存训练的输出结果,例如checkpoint。
“代码路径参数”默认为“train_url”,需要保持默认,且与“训练输入”参数的“checkpoint_url”OBS路径保持一致。
NAS挂载
存储类型为EFS,则选择配置的EFS资源。
存储类型为OBS,不需要配置。
本地挂载地址
存储类型为EFS,则配置本地挂载的绝对路径地址。
存储类型为OBS,不需要配置。
作业日志路径
用户自行配置保存日志的OBS路径。
资源池选择
根据配置的资源选择对应的资源池。
计算节点个数
根据训练任务需求选择节点个数。
故障自动重启
若开启该选项,发生故障时,训练任务进行重调度。
优先级
用户自行配置。
- 点击“确认创建”,完成训练任务的创建。
父主题: 通过平台使用