使用前必读

集群调度组件管理的推理芯片资源出现故障后,集群调度组件可以对故障资源(对应芯片)进行隔离并自动进行重调度。

前提条件

使用方式

推理卡故障重调度的使用方式如下:

使用说明

支持的产品形态

支持以下产品使用推理卡故障重调度。
  • 推理服务器(插Atlas 300I 推理卡
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器
  • A200I A2 Box 异构组件
  • Atlas 800I A3 超节点服务器

使用流程

通过命令行使用推理卡故障重调度特性流程可以参见图1

图1 使用流程