业务面故障
业务面故障处理流程如图1所示,以acjob任务(使用MindCluster Ascend Operator)为例。
各步骤说明如下:
- 任务运行过程中,正常运行的容器将ckpt存入远端存储,MindCluster Ascend Operator持续监测Pod数量及状态、volcano-scheduler持续监测Pod状态。
- 训练过程中发生业务面故障,同时导致Pod处于Failed状态。
- MindCluster Volcano检测到Pod处于Failed状态,删除任务所有Pod。
- MindCluster Ascend Operator或volcano-controller重新创建Pod。
- volcano-scheduler重新调度Pod。
- Pod在原节点重新拉起后,从远端存储拉取之前保存的ckpt,继续训练。
默认删除任务的所有Pod,若用户使用Pod级别重调度功能,则只删除故障Pod,重新创建并拉起该Pod。
父主题: 故障处理流程
