配置正确情况下,芯片故障不能触发重调度特性

问题描述

在正确配置重调度特性时,偶现芯片故障不能触发重调度特性。

可能原因

开源软件问题导致,节点上需要重启的Pod所用的NPU数量比node节点本身Allocatable多(芯片故障后被减去,故之前能够分配成功),导致该node在volcano-scheduler的缓存中设置为notReady,不能传递到ascend-volcano-plugin。从而导致故障不能触发重调度特性。

解决方法

该问题出现的概率较低,若出现有如下处理方法:

方法一:手动删除Pod:进入系统后台,使用命令kubectl delete pod -n pod所在namespace pod名称即可删除Pod

方法二:重新下发任务。