昇腾社区首页
中文
注册

配置推理任务重调度

当MindIE Server推理任务中出现节点、芯片或其他故障时,MindCluster集群调度组件可以对故障资源进行隔离并自动进行重调度。如需了解故障的检测原理,请参见故障检测章节。

前提条件

已完成部署MindIE Motor

重调度原理

当前故障处理采用Job级别重调度同样的方式,当发生故障时,对应的MindIE Server实例停止所有Pod,重新创建并重调度所有Pod后,最新的global-ranktable.json重新推送给MS Controller,推理任务被重启。

在PD分离的场景下,例如MindIE Server包含一个Prefill实例和一个Decode实例,Prefill实例发生故障,仅停止Prefill实例的所有Pod,不会影响其他正常运行的实例。

配置Job级别重调度

Job级别重调度默认开启,用户只需完成准备任务YAML的步骤即可。

apiVersion: mindxdl.gitee.com/v1
kind: AscendJob
metadata:
  name: mindie-server-0
  namespace: mindie
  labels:
    framework: pytorch        
    app: mindie-ms-server        # 表示MindIE Motor在Ascend Job任务中的角色,不可修改
    jobID: mindie-ms-test        # 当前MindIE Motor推理任务在集群中的唯一识别ID,用户可根据实际情况进行配置
    fault-scheduling: force    # 开启重调度功能
    ring-controller.atlas: ascend-910b
spec:
  schedulerName: volcano   # Ascend Operator启用“gang”调度时所选择的调度器
  runPolicy:
    schedulingPolicy:      # Ascend Operator启用“gang”调度生效,且调度器为Volcano时,本字段才生效
      minAvailable: 2      # 任务运行总副本数
      queue: default
  successPolicy: AllWorkers
  replicaSpecs:
    Master: