昇腾社区首页
中文
注册
开发者
下载

推理卡故障重调度

功能特点

集群调度组件管理的推理NPU资源出现故障后,集群调度组件将对故障资源(对应NPU)进行隔离并自动进行重调度。

所需组件

  • Ascend Device Plugin
  • Ascend Docker Runtime
  • Ascend Operator
  • Volcano
  • ClusterD
  • NodeD

使用说明

  1. 安装组件请参考安装部署章节进行操作。
  2. 特性使用指导请参考推理卡故障重调度章节进行操作。