昇腾社区首页
中文
注册

配置正确情况下,NPU芯片故障不能触发重调度特性

问题现象描述

在正确配置重调度特性时,偶现芯片故障不能触发重调度特性。

原因分析

开源软件问题,节点上需要重启的Pod所用的NPU数量比Node节点本身Allocatable多(芯片故障后被减去,故之前能够分配成功),导致该Node在volcano-scheduler的缓存中设置为notReady,不能传递到ascend-volcano-plugin。从而导致故障不能触发重调度特性。

解决措施

该问题出现的概率较低,若出现有如下处理方法:

方法一:手动删除Pod。进入系统后台,执行命令:kubectl delete pod -n namespace pod名称

方法二:重新下发任务。