开发者
资源

使用约束

集群调度组件管理的推理芯片资源出现故障后,集群调度组件将对故障资源(对应芯片)进行隔离并自动进行重调度。

使用样例说明

由用户自行准备模型和脚本。

使用说明

  • 本特性目前仅支持使用集群调度组件K8s集群。
  • 本特性依赖集群调度组件VolcanoAscend Device Plugin两个组件,在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。
  • 本特性支持vcjob或Deployment类型任务,且需在该类任务中增加故障重调度的开关的标签“fault-scheduling”,并将其设置为“grace”,不支持“fault-scheduling: force”。