配置正确情况下,NPU芯片故障不能触发重调度特性
问题现象描述
在正确配置重调度特性时,偶现芯片故障不能触发重调度特性。
原因分析
开源软件问题,节点上需要重启的Pod所用的NPU数量比Node节点本身Allocatable多(芯片故障后被减去,故之前能够分配成功),导致该Node在volcano-scheduler的缓存中设置为notReady,不能传递到ascend-volcano-plugin。从而导致故障不能触发重调度特性。
解决措施
该问题出现的概率较低,若出现有如下处理方法:
方法一:手动删除Pod。进入系统后台,执行命令:kubectl delete pod -n namespace pod名称。
方法二:重新下发任务。
父主题: 使用时出现的故障