昇腾故障案例详情页

多颗NPU芯片故障后,导致Volcano重启,重调度任务不触发

更新时间: 2023/06/13

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署MindX DL芯片故障、重调度

问题现象描述

多颗芯片同时故障,可能导致Volcano调度模块崩溃、重启,出现以下两种场景:
  • 故障重调度可能不执行。可参考解决措施进行处理。
  • 可能会出现状态为UnexpectedAdmissionError的Pod记录,但是不影响任务最终以一个新Pod被拉起,此时任务是正常运行,无须进一步处理。

原因分析

NPU芯片故障后,k8s将故障的NPU芯片移除。当Volcano归还Pod占用的NPU芯片资源时,发现当前NPU芯片和K8s上NPU芯片数量不一致,从而引发panic

解决措施

由于该问题为Volcano v1.4.0版本问题(开源社区),因此只能通过删除Volcano的Pod方式解决。

删除Volcano的Pod的命令如下(其中volcano-scheduler的Pod的名称需要根据实际情况填写):

kubectl delete pod -n volcano-system   volcano-scheduler-xxxxxxxxx

本页内容

该页面对您有帮助吗?
我要评分