流程介绍
端到端流程
各步骤说明如下:
- 通过轮询的方式查询设备状态,根据MindCluster Ascend Device Plugin从DCMI接口获取的NPU状态和MindCluster NodeD上报的节点健康状态判断当前是否发生故障。
- 查询到节点或芯片故障后,对设备进行隔离,防止再次调度到该设备上。
- 停止训练进程,退出训练容器。
- 节点或芯片故障后,系统会将训练任务重调度到健康的设备上,重启训练容器;业务面故障将所有Pod重新调回原节点。
- 训练脚本重新拉起训练进程。
- 运维人员可以根据故障类型判断是否可热恢复。
- 可热恢复故障进行热恢复,使设备恢复健康状态。
- 恢复后的设备自动重新加入集群中。
- 不可恢复的设备通过运维监测系统上报告警。
- 对不可恢复的设备进行线下人工维修和换件。

业务面故障触发的断点续训功能,将只执行上述步骤3~步骤5。
父主题: 特性说明