业务面故障
业务面故障处理流程如图1所示,以acjob任务(使用Ascend Operator)为例。
各步骤说明如下:
- 任务运行过程中,正常运行的容器将ckpt存入远端存储,Ascend Operator持续监测Pod数量及状态、volcano-scheduler持续监测Pod状态。
- 训练过程中发生业务面故障,同时导致Pod处于Failed状态。
- Volcano检测到Pod处于Failed状态,删除任务所有Pod。
- Ascend Operator重新创建Pod。
- volcano-scheduler重新调度Pod。
- Pod在重新拉起后,从远端存储拉取之前保存的ckpt,继续训练。

默认删除任务的所有Pod,若用户使用Pod级别重调度功能,则只删除故障Pod,重新创建并拉起该Pod。
父主题: 故障处理流程