昇腾社区首页
中文
注册

云上训练

若没有账号,则需要注册AICC账号。参考《对象存储服务 OBS》“快速入门 > 步骤一:准备工作”章节,注册AICC并实名认证。

创建OBS桶

  1. 登录OBS管理控制台,创建OBS桶。具体请参见创建桶章节。
    图1 创建桶

    创建桶的区域需要与ModelArts所在的区域一致。

  2. 创建用于存放数据的文件夹,具体请参见新建文件夹章节。
    图2 OBS桶目录
    表1 目录结构说明表

    目录

    说明

    code

    存放训练脚本目录。

    data

    存放训练数据集目录。

    logs

    存放训练日志目录。

    output

    存放训练生成ckpt和air模型目录。

    preckpt

    存放预训练模型目录。

  3. 将代码包文件夹上传至“code”目录,数据集上传至“data”目录,若有预训练模型上传至“preckpt”目录。

创建算法

  1. 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“算法管理”,如图3所示。
    图3 算法管理界面图
  2. 在“我的算法”界面,单击左上角“创建”,进入“创建算法”页面,如图4所示。
    图4 创建算法界面图
  3. 在“创建算法”页面,填写相关参数,然后单击“提交”。
    图5 创建算法界面图

    • 设置算法基本信息。
    • 设置“启动方式”为“预置框架”。
    • 用户需根据实际算法代码情况设置“AI引擎”、“代码目录”和“启动文件”。选择的AI引擎和编写算法代码时选择的框架必须一致。例如,编写算法代码使用的是PyTorch,则在创建算法时也要选择PyTorch。
    • 单击“增加超参”,手动添加超参。配置代码中的命令行参数值,请根据您编写的算法代码逻辑进行填写,确保参数名称和代码的参数名称保持一致。可填写多个参数。
    表2 创建算法参数表

    参数名称

    说明

    AI引擎

    Ascend-Powered-Engine,自定义。

    镜像

    选择准备镜像步骤上传的“ascend-pytorch-arm-modelarts”镜像。

    代码目录

    算法代码存储的OBS路径,如“/obs桶名称/pytorch-dataset/code/AlexNet_ID2663_for_PyTorch”。

    启动文件

    启动训练的Python脚本,如“/obs桶名称/pytorch-dataset/code/AlexNet_ID2663_for_PyTorch/train_start.py”。

    须知:需要把“modelarts/”目录下的“train_start.py”启动脚本拷贝到根目录下。

    输入数据配置

    代码路径参数:“data_url”。

    输入数据配置

    代码路径参数:“checkpoint_url”。

    输出数据配置

    代码路径参数:“train_url”。

创建训练作业

  1. 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“训练管理” > “训练作业”,默认进入“训练作业”列表,如图6所示。
    图6 训练管理界面
  2. 在“训练作业”界面,单击右上角“创建训练作业”,进入“创建训练作业”页面,如图7所示。
    图7 创建训练作业界面
  3. 在“创建训练作业”页面,填写训练作业相关参数,然后单击“提交”。
    图8 创建训练作业界面

    • 填写基本信息, 包含“名称”和“描述”。
    • 填写作业参数,包含数据来源、算法来源等关键信息。本步骤只提供训练任务部分参数配置说明,其他参数配置详情请参见《ModelArts AI 工程师用户指南》中“模型训练”。
    • 单击“提交”,完成训练作业的创建。
    • 训练作业一般需要运行一段时间,根据您选择的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。
    表3 创建训练作业参数表

    参数名称

    子参数

    说明

    算法

    我的算法

    选择“我的算法”页签,勾选上文中创建的算法。如果没有创建算法,请单击“创建”进入创建算法页面,详细操作指导参见创建算法

    训练输入

    数据来源

    选择OBS上数据集存放的目录。

    训练输出

    模型输出

    选择训练结果的存储位置(OBS路径),请尽量选择空目录来作为训练输出路径。

    规格

    -

    Ascend: 1*Ascend 910(32GB) | ARM: 24 核 96GB

    作业日志路径

    -

    设置训练日志存放的目录。请注意选择的OBS目录有读写权限。

查看训练任务日志

  1. 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“训练管理” > “训练作业”,默认进入“训练作业”列表,如图9所示。
    图9 训练作业任务列表图
  2. 在训练作业列表中,您可以单击作业名称,查看该作业的详情。
    • 详情中包含作业的基本信息、训练参数、日志详情和资源占用情况。
      图10 训练日志
    • 成功生成ckpt模型和onnx模型。
      图11 ckpt模型和onnx模型界面
    • 成功保存训练日志。
      图12 保存训练日志