配置推理任务重调度

当MindIE Server推理任务中出现节点、芯片或其他故障时，MindCluster集群调度组件可以对故障资源进行隔离并自动进行重调度。如需了解故障的检测原理，请参见故障检测章节。

前提条件

重调度原理

当前故障处理采用Job级别重调度同样的方式，当发生故障时，对应的MindIE Server实例停止所有Pod，重新创建并重调度所有Pod后，最新的global-ranktable.json重新推送给MS Controller，推理任务被重启。

在PD分离的场景下，例如MindIE Server包含一个Prefill实例和一个Decode实例，Prefill实例发生故障，仅停止Prefill实例的所有Pod，不会影响其他正常运行的实例。

配置Job级别重调度

Job级别重调度默认开启，用户只需完成准备任务YAML的步骤即可。

apiVersion: mindxdl.gitee.com/v1
kind: AscendJob
metadata:
  name: mindie-server-0
  namespace: mindie
  labels:
    framework: pytorch        
    app: mindie-ms-server        # 表示MindIE Motor在Ascend Job任务中的角色,不可修改
    jobID: mindie-ms-test        # 当前MindIE Motor推理任务在集群中的唯一识别ID，用户可根据实际情况进行配置
    fault-scheduling: force    # 开启重调度功能
    ring-controller.atlas: ascend-910b
spec:
  schedulerName: volcano   # Ascend Operator启用“gang”调度时所选择的调度器
  runPolicy:
    schedulingPolicy:      # Ascend Operator启用“gang”调度生效，且调度器为Volcano时，本字段才生效
      minAvailable: 2      # 任务运行总副本数
      queue: default
  successPolicy: AllWorkers
  replicaSpecs:
    Master:

父主题： MindIE Motor推理任务最佳实践