芯片故障的重调度场景故障处理流程如图1所示,以acjob任务(使用Ascend Operator)为例。
默认删除使用了故障芯片的任务的所有Pod,若用户使用Pod级别重调度功能,则只删除故障芯片所在Pod,重新创建并拉起该Pod。
芯片故障的优雅容错场景故障处理流程如图2所示,以acjob任务(使用Ascend Operator)为例。
各步骤说明如下: