昇腾社区首页
中文
注册

PodGroup

表1 集群调度组件对podGroup label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识atlas的Pod

  • ascend-910
  • ascend-{xxx}b

Ascend Device PluginHCCL ControllerVolcano

fault-scheduling

任务故障重调度开关

grace、force、off

VolcanoResilience Controller

elastic-scheduling

任务弹性调度开关

on

Resilience ControllerVolcano

fault-retry-times

任务发生业务面故障可以重调度的次数

0-100

VolcanoAscend Operator

tor-affinity

交换机亲和性策略

  • normal-schema
  • large-model-schema
  • null

Volcano

npu-310-strategy

标记推理服务器(插Atlas 300I 推理卡)调度策略

  • card
  • chip

Volcano