配置推理任务重调度
当MindIE Server推理任务中出现节点、芯片或其他故障时,MindCluster集群调度组件可以对故障资源进行隔离并自动进行重调度。如需了解故障的检测原理,请参见故障检测章节。
前提条件
重调度原理
当前故障处理采用Job级别重调度同样的方式,当发生故障时,对应的MindIE Server实例停止所有Pod,重新创建并重调度所有Pod后,最新的global-ranktable.json重新推送给MS Controller,推理任务被重启。
在PD分离的场景下,例如MindIE Server包含一个Prefill实例和一个Decode实例,Prefill实例发生故障,仅停止Prefill实例的所有Pod,不会影响其他正常运行的实例。
配置Job级别重调度
Job级别重调度默认开启,用户只需完成准备任务YAML的步骤即可。
apiVersion: mindxdl.gitee.com/v1 kind: AscendJob metadata: name: mindie-server-0 namespace: mindie labels: framework: pytorch app: mindie-ms-server # 表示MindIE Motor在Ascend Job任务中的角色,不可修改 jobID: mindie-ms-test # 当前MindIE Motor推理任务在集群中的唯一识别ID,用户可根据实际情况进行配置 fault-scheduling: force # 开启重调度功能 ring-controller.atlas: ascend-910b spec: schedulerName: volcano # Ascend Operator启用“gang”调度时所选择的调度器 runPolicy: schedulingPolicy: # Ascend Operator启用“gang”调度生效,且调度器为Volcano时,本字段才生效 minAvailable: 2 # 任务运行总副本数 queue: default successPolicy: AllWorkers replicaSpecs: Master:
父主题: MindIE Motor推理任务最佳实践