流程介绍

断点续训特性基于故障触发，触发成功后经过故障发现、故障处理和训练重启三个阶段后可恢复训练。断点续训端到端的流程如图1所示；断点续训全流程时间线请参见如全流程时间线所示。

图1 端到端流程

各步骤说明如下：

通过轮询的方式查询设备状态，根据MindCluster Ascend Device Plugin从DCMI接口获取的NPU状态和MindCluster NodeD上报的节点健康状态判断当前是否发生故障。
查询到节点或芯片故障后，对设备进行隔离，防止再次调度到该设备上。
停止训练进程，退出训练容器。
节点或芯片故障后，系统会将训练任务重调度到健康的设备上，重启训练容器；业务面故障将所有Pod重新调回原节点。
训练脚本重新拉起训练进程。
运维人员可以根据故障类型判断是否可热恢复。
可热恢复故障进行热恢复，使设备恢复健康状态。
恢复后的设备自动重新加入集群中。
不可恢复的设备通过运维监测系统上报告警。
对不可恢复的设备进行线下人工维修和换件。

业务面故障触发的断点续训功能，将只执行上述步骤3~步骤5。

以PyTorch框架下的GPT-3模型，其在NFS存储下写入速度为2.7GB/s，读取速度为4.8GB/s的情况下，参数量大小为3B或15B的单机八卡任务为例，故障处理模式为重调度，若使用优雅容错模式，可不参考该指标。

参数量大小为3B，如图2所示，该模型的ckpt落盘时间约为30秒，断点续训在设备发现阶段用时小于5秒，设备处理阶段用时小于30秒，训练重启阶段用时大约在70秒左右，训练重启阶段的ckpt加载功能用时约3秒。
参数量大小为15B，如图3所示，该模型的ckpt落盘时间约为120秒，断点续训在设备发现阶段用时小于5秒，设备处理阶段用时小于30秒，训练重启阶段用时大约在210秒左右，训练重启阶段的ckpt加载功能用时约90秒。

图2 3B模型时间指标

图3 15B模型时间指标

父主题： 特性说明