开发者
资源

推理卡故障恢复

功能特点

集群调度组件管理的推理NPU资源出现故障后,将对故障资源(对应NPU)进行热复位操作,使NPU恢复健康。

所需组件

  • 调度器(MindCluster Volcano或其他调度器)
  • MindCluster Ascend Device Plugin
  • MindCluster Ascend Docker Runtime
  • MindCluster ClusterD
  • MindCluster NodeD

使用说明