昇腾社区首页
中文
注册

流程介绍

端到端流程

断点续训特性基于故障触发,触发成功后经过故障发现、故障处理和训练重启三个阶段后可恢复训练。断点续训端到端的流程如图1所示;断点续训全流程时间线请参见如全流程时间线所示。
图1 端到端流程
各步骤说明如下:
  1. 通过轮询的方式查询设备状态,根据MindCluster Ascend Device Plugin从DCMI接口获取的NPU状态和MindCluster NodeD上报的节点健康状态判断当前是否发生故障。
  2. 查询到节点或芯片故障后,对设备进行隔离,防止再次调度到该设备上。
  3. 停止训练进程,退出训练容器。
  4. 节点或芯片故障后,系统会将训练任务重调度到健康的设备上,重启训练容器;业务面故障将所有Pod重新调回原节点。
  5. 训练脚本重新拉起训练进程。
  6. 运维人员可以根据故障类型判断是否可热恢复。
  7. 可热恢复故障进行热恢复,使设备恢复健康状态。
  8. 恢复后的设备自动重新加入集群中。
  9. 不可恢复的设备通过运维监测系统上报告警。
  10. 对不可恢复的设备进行线下人工维修和换件。

业务面故障触发的断点续训功能,将只执行上述步骤3~步骤5。

全流程时间线

PyTorch框架下的GPT-3模型,其在NFS存储下写入速度为2.7GB/s,读取速度为4.8GB/s的情况下,参数量大小为3B或15B的单机八卡任务为例,故障处理模式为重调度,若使用优雅容错模式,可不参考该指标。
  • 参数量大小为3B,如图2所示,该模型的ckpt落盘时间约为30秒,断点续训在设备发现阶段用时小于5秒,设备处理阶段用时小于30秒,训练重启阶段用时大约在70秒左右,训练重启阶段的ckpt加载功能用时约3秒。
  • 参数量大小为15B,如图3所示,该模型的ckpt落盘时间约为120秒,断点续训在设备发现阶段用时小于5秒,设备处理阶段用时小于30秒,训练重启阶段用时大约在210秒左右,训练重启阶段的ckpt加载功能用时约90秒。
图2 3B模型时间指标
图3 15B模型时间指标