MindX DL场景

用户在MindX DL场景下使用断点续训特性,可以按照以下流程进行操作。

图1 MindX DL场景使用流程图

流程介绍

表1 使用流程说明

步骤

说明

操作参考

了解MindX DL场景

用户需要提前了解MindX DL场景下,断点续训的相关说明和约束。

具体说明请参见MindX DL场景说明

准备组件

安装和配置断点续训所需到的组件。

具体说明请参见准备组件

配置组件

用户需要确保已经启动的组件,符合本章节的配置。

具体操作请参见配置组件

脚本适配

修改训练涉及到的模型脚本,如TensorFlow、PyTorch和MindSpore。

具体操作请参见脚本适配

制作镜像

制作断点续训的故障恢复功能所需镜像和临终遗言功能所需镜像。

具体操作请参见制作镜像

下发任务

将训练yaml下发到节点上。

具体操作请参见下发任务

查看任务进程

查看训练任务是否成功运行。

具体操作请参见查看任务进程

查看断点续训结果

由于需要训练任务出现故障时才能触发断点续训特性,所以本文将会以构造的节点故障为例,查看断点续训结果。

具体操作请参见查看断点续训结果

其他运维操作

若用户在Ascend Device Plugin的启动yaml中已设置autoStowing参数为false,则需要参考本章节进行修改后才能使用断点续训功能。

具体操作请参见运行维护