推理卡故障恢复 功能特点集群调度组件管理的推理NPU资源出现故障后,将对故障资源(对应NPU)进行热复位操作,使NPU恢复健康。 所需组件调度器(Volcano或其他调度器)Ascend Device PluginAscend Docker RuntimeClusterDNodeD 使用说明安装组件请参考安装部署章节进行操作。特性使用指导请参考推理卡故障恢复章节进行操作。 父主题: 基础调度