推理卡故障恢复
功能特点
集群调度组件
管理的推理NPU资源出现故障后,将对故障资源(对应NPU)进行热复位操作,使NPU恢复健康。
所需组件
调度器(
Volcano
或其他调度器)
Ascend Device Plugin
Ascend Docker Runtime
ClusterD
NodeD
使用说明
安装组件请参考
安装部署
章节进行操作。
特性使用指导请参考
推理卡故障恢复
章节进行操作。
父主题:
基础调度