当NPU故障时,Volcano组件会自动将该NPU上运行的推理任务调度到其他节点上(其他调度器不支持该功能,需要用户自行实现);再由Ascend Device Plugin组件实现NPU的复位操作,使NPU恢复健康。用户可以通过npu- smi info命令查看NPU信息,若故障的NPU当前“health”字段显示的信息为“OK”,表示NPU已经恢复健康。
Ascend Device Plugin组件实现NPU的复位功能,需要确保当前故障NPU上没有推理任务或者推理任务已经被调走。若用户使用其他调度器且该调度器没有实现重调度功能,可以手动删除该NPU上的推理任务。