推理卡故障重调度
功能特点
集群调度组件管理的推理NPU资源出现故障后,集群调度组件将对故障资源(对应NPU)进行隔离并自动进行重调度。
所需组件
- MindCluster Ascend Device Plugin
- MindCluster Ascend Docker Runtime
- MindCluster Volcano
- MindCluster ClusterD
- MindCluster NodeD
父主题: 基础调度
集群调度组件管理的推理NPU资源出现故障后,集群调度组件将对故障资源(对应NPU)进行隔离并自动进行重调度。