推理卡故障重调度
功能特点
集群调度组件
管理的推理NPU资源出现故障后,
集群调度组件
将对故障资源(对应NPU)进行隔离并自动进行重调度。
所需组件
Ascend Device Plugin
Ascend Docker Runtime
Ascend Operator
Volcano
ClusterD
NodeD
使用说明
安装组件请参考
安装部署
章节进行操作。
特性使用指导请参考
推理卡故障重调度
章节进行操作。
父主题:
基础调度