昇腾社区首页
中文
注册
开发者
下载

Pod

表1 集群调度组件对Pod label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识Atlas的Pod

  • ascend-910
  • ascend-{xxx}b

Ascend Device PluginAscend OperatorVolcano

fault-scheduling

任务故障重调度开关

grace、force、off

VolcanoResilience Controller

elastic-scheduling

任务弹性调度开关

on

Resilience ControllerVolcano

fault-retry-times

任务发生业务面故障可以重调度的次数

0-100

VolcanoAscend Operator

tor-affinity

交换机亲和性策略

  • normal-schema
  • large-model-schema
  • null

Volcano

npu-310-strategy

标记推理服务器(插Atlas 300I 推理卡)调度策略

  • card
  • chip

Volcano

pod-rescheduling

是否启用Pod级别重调度。

  • on:开启Pod级别重调度
  • 其他值或不使用该字段:关闭Pod级别重调度

Volcano

process-recover-enable

是否启用进程级别重调度。

  • on:开启进程级别重调度
  • 其他值或不使用该字段:关闭进程级别重调度

Volcano

subHealthyStrategy

亚健康处理策略

  • ignore:忽略该亚健康节点,后续任务在亲和性调度上不优先调度该节点。
  • graceExit:不使用亚健康节点,并保存临终CKPT文件后,进行重调度,后续任务不会调度到该节点。
  • forceExit:不使用亚健康节点,不保存任务直接退出,进行重调度,后续任务不会调度到该节点。
  • hotSwitch:执行亚健康热切,拉起备份Pod后,暂停训练任务,并使用新节点重新拉起训练。

Volcano

表2 集群调度组件对Pod annotations使用说明

名称

作用

取值

使用组件

sp-block

指定逻辑超节点芯片数量。

整数

VolcanoAscend Operator

huawei.com/schedule_policy

指定调度策略。

目前支持表3中的配置。

Volcano

sp-fit

超节点调度策略。

idlest:逻辑超节点会调度到更空闲的物理超节点。

Volcano

huawei.com/schedule_minAvailable

任务能够调度的最小副本数。

整数

Volcano

huawei.com/recover_policy_path

任务重调度策略。

pod:只支持Pod级重调度,不升级为Job级别。

Volcano

表3 huawei.com/schedule_policy配置说明

配置

说明

chip4-node8

1个节点8张芯片,每4个芯片形成1个互联环。例如,Atlas 800 训练服务器(型号 9000)/Atlas 800 训练服务器(型号 9010)芯片的整模块场景。

chip1-node2

1个节点2张芯片。例如,Atlas 300T 训练卡的插卡场景,1张卡最多插1个芯片,1个节点最多插2张卡。

chip4-node4

1个节点4张芯片,形成1个互联环。例如,Atlas 800 训练服务器(型号 9000)/Atlas 800 训练服务器(型号 9010)芯片的半配场景。

chip8-node8

1个节点8张卡,8张卡都在1个互联环上。例如,Atlas 800T A2 训练服务器

chip8-node16

1个节点16张卡,每8张卡在1个互联环上。例如,Atlas 200T A2 Box16 异构子框

chip2-node16

1个节点16张卡,每2张卡在1个互联环上。例如,Atlas 800T A3 超节点服务器

chip2-node16-sp

1个节点16张卡,每2张卡在1个互联环上,多个服务器形成超节点。例如,Atlas 900 A3 SuperPoD 超节点