推理卡故障恢复
功能特点
集群调度组件管理的推理NPU资源出现故障后,将对故障资源(对应NPU)进行热复位操作,使NPU恢复健康。
所需组件
- 调度器(MindCluster Volcano或其他调度器)
- MindCluster Ascend Device Plugin
- MindCluster Ascend Docker Runtime
- MindCluster ClusterD
- MindCluster NodeD
父主题: 基础调度
集群调度组件管理的推理NPU资源出现故障后,将对故障资源(对应NPU)进行热复位操作,使NPU恢复健康。