业务面故障

业务面故障处理流程如图1所示,以acjob任务(使用Ascend Operator)为例。

图1 业务面网络故障恢复

各步骤说明如下:

  1. 任务运行过程中,正常运行的容器将ckpt存入远端存储,Ascend Operator持续监测Pod数量及状态、volcano-scheduler持续监测Pod状态。
  2. 训练过程中发生业务面故障,同时导致Pod处于Failed状态。
  3. Volcano检测到Pod处于Failed状态,删除任务所有Pod。
  4. Ascend Operator重新创建Pod。
  5. volcano-scheduler重新调度Pod。
  6. Pod在重新拉起后,从远端存储拉取之前保存的ckpt,继续训练。

默认删除任务的所有Pod,若用户使用Pod级别重调度功能,则只删除故障Pod,重新创建并拉起该Pod。