用户在MindX DL场景下使用断点续训特性,可以按照以下流程进行操作。
步骤 |
说明 |
操作参考 |
---|---|---|
了解MindX DL场景 |
用户需要提前了解MindX DL场景下,断点续训的相关说明和约束。 |
具体说明请参见MindX DL场景说明。 |
准备组件 |
安装和配置断点续训所需到的组件。 |
具体说明请参见准备组件。 |
配置组件 |
用户需要确保已经启动的组件,符合本章节的配置。 |
具体操作请参见配置组件。 |
脚本适配 |
修改训练涉及到的模型脚本,如TensorFlow、PyTorch和MindSpore。 |
具体操作请参见脚本适配。 |
制作镜像 |
制作断点续训的故障恢复功能所需镜像和临终遗言功能所需镜像。 |
具体操作请参见制作镜像。 |
下发任务 |
将训练yaml下发到节点上。 |
具体操作请参见下发任务。 |
查看任务进程 |
查看训练任务是否成功运行。 |
具体操作请参见查看任务进程。 |
查看断点续训结果 |
由于需要训练任务出现故障时才能触发断点续训特性,所以本文将会以构造的节点故障为例,查看断点续训结果。 |
具体操作请参见查看断点续训结果。 |
其他运维操作 |
若用户在Ascend Device Plugin的启动yaml中已设置autoStowing参数为false,则需要参考本章节进行修改后才能使用断点续训功能。 |
具体操作请参见运行维护。 |