参数 |
参数说明与配置 |
---|---|
地域 |
选择训练资源对应的选项。 |
作业名称/ID |
用户自行配置。 |
数据来源 |
选择“私有数据”。 |
作业集群类型 |
选择“同构集群”。 |
算法 |
选择“自定义镜像”。 |
自定义镜像 |
用户上传已预安装mindx_elastic包的“自定义镜像”:
选择已上传的镜像和对应版本。 |
运行命令 |
选择“预置命令”。 |
AI引擎 |
选择“Ascend-Powered-Engine”,“mindspore_1.6.1-cann_5.0.4-py_3.7-euler_2.8.3-aarch64”。 |
代码目录 |
选择obs中训练脚本存储的根目录,代码示例参考脚本适配。 |
启动文件 |
选择obs中训练任务的启动脚本,例如“train.py”。 |
运行参数 |
根据具体的训练任务进行配置。 |
环境变量 |
配置如下:
|
训练输入 |
勾选“数据存储位置”,选择数据集存储的obs路径。 “代码路径参数”默认为“data_url”,需要保持默认。 当存储类型为obs时,点击“+”按钮,添加一个输入参数,参数名设置为“checkpoint_url”。 |
训练输出 |
如果存储类型为efs,不进行勾选。 如果存储类型为obs,选择obs对应的路径用于保存训练的输出结果,例如checkpoint。 “代码路径参数”默认为“train_url”,需要保持默认,且与“训练输入”参数的“checkpoint_url”obs路径保持一致。 |
NAS挂载 |
存储类型为efs,则选择配置的efs资源。 存储类型为obs,不需要配置。 |
本地挂载地址 |
存储类型为efs,则配置本地挂载的绝对路径地址。 存储类型为obs,不需要配置。 |
作业日志路径 |
用户自行配置保存日志的obs路径。 |
资源池选择 |
根据配置的资源选择对应的资源池。 |
计算节点个数 |
根据训练任务需求选择节点个数。 |
故障自动重启 |
若开启该选项,发生故障时,训练任务进行重调度。 |
优先级 |
用户自行配置。 |