推理卡故障重调度 功能特点 集群调度组件管理的推理NPU资源出现故障后,集群调度组件将对故障资源(对应NPU)进行隔离并自动进行重调度。 所需组件 Ascend Device Plugin Ascend Docker Runtime Ascend Operator Volcano ClusterD NodeD 使用说明 安装组件请参考安装部署章节进行操作。 特性使用指导请参考推理卡故障重调度章节进行操作。 父主题: 基础调度