云上训练
若没有账号,则需要注册AICC账号。参考《对象存储服务 OBS》“快速入门 > 步骤一:准备工作”章节,注册AICC并实名认证。
创建OBS桶
创建算法
- 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“算法管理”,如图3所示。
- 在“我的算法”界面,单击左上角“创建”,进入“创建算法”页面,如图4所示。
- 在“创建算法”页面,填写相关参数,然后单击“提交”。图5 创建算法界面图
- 设置算法基本信息。
- 设置“启动方式”为“预置框架”。
- 用户需根据实际算法代码情况设置“AI引擎”、“代码目录”和“启动文件”。选择的AI引擎和编写算法代码时选择的框架必须一致。例如,编写算法代码使用的是PyTorch,则在创建算法时也要选择PyTorch。
- 单击“增加超参”,手动添加超参。配置代码中的命令行参数值,请根据您编写的算法代码逻辑进行填写,确保参数名称和代码的参数名称保持一致。可填写多个参数。
表2 创建算法参数表 参数名称
说明
AI引擎
Ascend-Powered-Engine,自定义。
镜像
选择准备镜像步骤上传的“ascend-pytorch-arm-modelarts”镜像。
代码目录
算法代码存储的OBS路径,如“/obs桶名称/pytorch-dataset/code/AlexNet_ID2663_for_PyTorch”。
启动文件
启动训练的Python脚本,如“/obs桶名称/pytorch-dataset/code/AlexNet_ID2663_for_PyTorch/train_start.py”。
须知:需要把“modelarts/”目录下的“train_start.py”启动脚本拷贝到根目录下。
输入数据配置
代码路径参数:“data_url”。
输入数据配置
代码路径参数:“checkpoint_url”。
输出数据配置
代码路径参数:“train_url”。
创建训练作业
- 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“训练管理” > “训练作业”,默认进入“训练作业”列表,如图6所示。
- 在“训练作业”界面,单击右上角“创建训练作业”,进入“创建训练作业”页面,如图7所示。
- 在“创建训练作业”页面,填写训练作业相关参数,然后单击“提交”。图8 创建训练作业界面
表3 创建训练作业参数表 参数名称
子参数
说明
算法
我的算法
选择“我的算法”页签,勾选上文中创建的算法。如果没有创建算法,请单击“创建”进入创建算法页面,详细操作指导参见创建算法。
训练输入
数据来源
选择OBS上数据集存放的目录。
训练输出
模型输出
选择训练结果的存储位置(OBS路径),请尽量选择空目录来作为训练输出路径。
规格
-
Ascend: 1*Ascend 910(32GB) | ARM: 24 核 96GB
作业日志路径
-
设置训练日志存放的目录。请注意选择的OBS目录有读写权限。
查看训练任务日志
- 使用云帐号登录ModelArts管理控制台,在左侧导航栏中选择“训练管理” > “训练作业”,默认进入“训练作业”列表,如图9所示。
- 在训练作业列表中,您可以单击作业名称,查看该作业的详情。
- 详情中包含作业的基本信息、训练参数、日志详情和资源占用情况。
图10 训练日志
- 成功生成ckpt模型和onnx模型。
图11 ckpt模型和onnx模型界面
- 成功保存训练日志。
图12 保存训练日志
- 详情中包含作业的基本信息、训练参数、日志详情和资源占用情况。