任务被重调度后Pod状态不一致
问题现象描述
多节点集群环境,下发分布式训练任务,若此时资源刚好满足,并且开启任务重调度且重调度参数“fault-scheduling”设置为“grace”。此时,如果出现故障,触发重调度,则任务重调度后概率性出现一个Pod状态为Running和一个Pod状态为Pending的情况,若后续故障恢复,状态为Pending的Pod依然Pending。
原因分析
解决措施
- 执行以下命令,手动删除已运行的Pod。
kubectl delete pod -n pod所在的namespace pod名称
- 删除该任务重新下发。
父主题: 使用时出现的故障