多颗NPU芯片故障后,导致MindCluster Volcano重启,重调度任务不触发
问题现象描述
多颗芯片同时故障,可能导致MindCluster Volcano调度模块崩溃、重启,出现以下两种场景:
- 故障重调度可能不执行。可参考解决措施进行处理。
- 可能会出现状态为UnexpectedAdmissionError的Pod记录,但是不影响任务最终以一个新Pod被拉起,此时任务是正常运行,无须进一步处理。
原因分析
NPU芯片故障后,K8s将故障的NPU芯片移除。当MindCluster Volcano归还Pod占用的NPU芯片资源时,发现当前NPU芯片和K8s上NPU芯片数量不一致,从而引发panic。
父主题: 使用时出现的故障