PodGroup

表1 集群调度组件对podGroup label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识atlas的Pod

  • ascend-910
  • ascend-{xxx}b

Ascend Device PluginAscend OperatorVolcano

fault-scheduling

任务故障重调度开关

grace、force、off

VolcanoResilience Controller

elastic-scheduling

任务弹性调度开关

on

Resilience ControllerVolcano

fault-retry-times

任务发生业务面故障可以重调度的次数

0-100

VolcanoAscend Operator

tor-affinity

交换机亲和性策略

  • normal-schema
  • large-model-schema
  • null

Volcano

npu-310-strategy

标记推理服务器(插Atlas 300I 推理卡)调度策略

  • card
  • chip

Volcano

pod-rescheduling

是否启用pod级重调度。

  • on:开启Pod级别重调度
  • 其他值或不使用该字段:关闭Pod级别重调度

Volcano

process-recover-enable

是否启用进程级别重调度。

  • on:开启进程级别重调度
  • 其他值或不使用该字段:关闭进程级别重调度

Volcano

subhealthyStrategy

亚健康处理策略

  • ignore:忽略该亚健康节点,后续任务会调度到该节点。
  • graceExit:不使用亚健康节点,并保存临终ckpt文件后,进行重调度,后续任务不会调度到该节点。
  • forceExit:不使用亚健康节点,不保存任务直接退出,进行重调度,后续任务不会调度到该节点。

Volcano