任务启动流程

  1. 打开云道ModelArts平台,训练管理页面选择训练作业V2
  2. 点击“创建训练作业”
  3. 根据页面提示填写或选择必选项。

    表1 参数说明与配置

    参数

    参数说明与配置

    地域

    选择训练资源对应的选项。

    作业名称/ID

    用户自行配置。

    数据来源

    选择“私有数据”。

    作业集群类型

    选择“同构集群”。

    算法

    选择“自定义镜像”。

    自定义镜像

    用户上传已预安装mindx_elastic包的“自定义镜像”:

    1. 在昇腾镜像仓库下载指定的训练镜像,或者按照使用Dockerfile构建ModelArts断点续训容器镜像(MindSpore)章节指引构建训练镜像。使用命令“docker save 镜像名 > xxx.tar”保存镜像文件至本地。
    2. 将本地的自定义镜像上传至云道平台obs存储,具体方法参考云道文档
    3. 在云道ModelArts平台镜像管理页面创建镜像,选择对应的地域,配置镜像名称、镜像版本,镜像类型选择“自定义上传”,存储位置选择上一步骤的obs存储路径。

    选择已上传的镜像和对应版本。

    运行命令

    选择“预置命令”。

    AI引擎

    选择“Ascend-Powered-Engine”“mindspore_1.6.1-cann_5.0.4-py_3.7-euler_2.8.3-aarch64”

    代码目录

    选择obs中训练脚本存储的根目录,代码示例参考脚本适配

    启动文件

    选择obs中训练任务的启动脚本,例如“train.py”

    运行参数

    根据具体的训练任务进行配置。

    环境变量

    配置如下:

    1. “MA_TERMINATION_GRACE_PERIOD_SECONDS”,训练任务优雅退出时间,根据模型规模进行配置。
    2. “CHECKPOINT_PATH”,当存储类型为efs时,填写模型存储的efs路径,根据用户配置的“本地挂载地址”进行设置;当存储类型为obs时,不需要配置此项。

    训练输入

    勾选“数据存储位置”,选择数据集存储的obs路径。

    “代码路径参数”默认为“data_url”,需要保持默认。

    当存储类型为obs时,点击“+”按钮,添加一个输入参数,参数名设置为“checkpoint_url”

    训练输出

    如果存储类型为efs,不进行勾选。

    如果存储类型为obs,选择obs对应的路径用于保存训练的输出结果,例如checkpoint。

    “代码路径参数”默认为“train_url”,需要保持默认,且与“训练输入”参数的“checkpoint_url”obs路径保持一致。

    NAS挂载

    存储类型为efs,则选择配置的efs资源。

    存储类型为obs,不需要配置。

    本地挂载地址

    存储类型为efs,则配置本地挂载的绝对路径地址。

    存储类型为obs,不需要配置。

    作业日志路径

    用户自行配置保存日志的obs路径。

    资源池选择

    根据配置的资源选择对应的资源池。

    计算节点个数

    根据训练任务需求选择节点个数。

    故障自动重启

    若开启该选项,发生故障时,训练任务进行重调度。

    优先级

    用户自行配置。

  4. 点击“确认创建”,完成训练任务的创建。