使用前必读
集群调度组件管理的推理芯片资源出现故障后,集群调度组件可以对故障资源(对应芯片)进行隔离并自动进行重调度。
前提条件
使用方式
推理卡故障重调度的使用方式如下:
使用说明
- 在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。
- 资源监测可以和推理场景下的所有特性一起使用。
- 集群中同时跑多个推理任务,每个任务使用的特性可以不同,但不能同时存在使用静态vNPU的任务和使用动态vNPU的任务。
- 推理卡故障重调度特性默认使用整卡调度;不支持静态vNPU调度;支持Atlas 推理系列产品使用动态vNPU调度。
- 推理卡故障重调度支持下发单副本数或者多副本数的单机任务,每个副本独立工作;只支持推理服务器(插Atlas 300I Duo 推理卡)和Atlas 800I A2 推理服务器部署acjob类型的分布式任务。
- 推理卡故障重调度支持vcjob或Deployment类型任务,且需在该类任务中增加故障重调度的开关的标签“fault-scheduling”,并将其设置为“grace”,不支持“fault-scheduling: force”。
支持的产品形态
- 推理服务器(插Atlas 300I 推理卡)
- Atlas 推理系列产品
- Atlas 800I A2 推理服务器
父主题: 推理卡故障重调度