使用前必读

集群调度组件管理的推理芯片资源出现故障后，集群调度组件可以对故障资源（对应芯片）进行隔离并自动进行重调度。

前提条件

使用推理卡故障重调度特性，需要确保已经安装如下组件。
- Volcano（本特性只支持使用Volcano作为调度器，不支持使用其他调度器。）
- Ascend Device Plugin
- Ascend Docker Runtime
- Ascend Operator
- ClusterD
- NodeD
若没有安装，可以参考安装部署章节进行操作。

使用方式

推理卡故障重调度的使用方式如下：

通过命令行使用：安装集群调度组件，通过命令行使用推理卡故障重调度特性。
集成后使用：将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。

使用说明

在重调度策略开启的情况下，Ascend Device Plugin的异常也会触发故障重调度。

资源监测可以和推理场景下的所有特性一起使用。
集群中同时跑多个推理任务，每个任务使用的特性可以不同，但不能同时存在使用静态vNPU的任务和使用动态vNPU的任务。
推理卡故障重调度特性默认使用整卡调度；不支持静态vNPU调度；支持Atlas 推理系列产品使用动态vNPU调度。
推理卡故障重调度支持下发单副本数或者多副本数的单机任务，每个副本独立工作；只支持推理服务器（插Atlas 300I Duo 推理卡）和Atlas 800I A2 推理服务器部署acjob类型的分布式任务。

推理卡故障重调度支持vcjob或Deployment类型任务，且需在该类任务中增加故障重调度的开关的标签“fault-scheduling”，并将其设置为“grace”，不支持“fault-scheduling: force”。

支持的产品形态

推理服务器（插Atlas 300I 推理卡）
Atlas 推理系列产品
Atlas 800I A2 推理服务器

使用流程

通过命令行使用推理卡故障重调度特性流程可以参见图1。

图1 使用流程

父主题： 推理卡故障重调度