Pod

表1 集群调度组件对Pod label使用说明
名称	作用	取值	使用组件
ring-controller.atlas	标识Atlas的Pod	ascend-910 ascend-{xxx}b	Ascend Device Plugin、Ascend Operator、Volcano
fault-scheduling	任务故障重调度开关	grace、force、off	Volcano、Resilience Controller
elastic-scheduling	任务弹性调度开关	on	Resilience Controller、Volcano
fault-retry-times	任务发生业务面故障可以重调度的次数	0-100	Volcano、Ascend Operator
tor-affinity	交换机亲和性策略	normal-schema large-model-schema null	Volcano
npu-310-strategy	标记推理服务器（插Atlas 300I 推理卡）调度策略	card chip	Volcano
pod-rescheduling	是否启用Pod级别重调度。	on：开启Pod级别重调度其他值或不使用该字段：关闭Pod级别重调度	Volcano
process-recover-enable	是否启用进程级别重调度。	on：开启进程级别重调度其他值或不使用该字段：关闭进程级别重调度	Volcano
subHealthyStrategy	亚健康处理策略	ignore：忽略该亚健康节点，后续任务在亲和性调度上不优先调度该节点。 graceExit：不使用亚健康节点，并保存临终CKPT文件后，进行重调度，后续任务不会调度到该节点。 forceExit：不使用亚健康节点，不保存任务直接退出，进行重调度，后续任务不会调度到该节点。 hotSwitch：执行亚健康热切，拉起备份Pod后，暂停训练任务，并使用新节点重新拉起训练。	Volcano

表2 集群调度组件对Pod annotations使用说明
名称	作用	取值	使用组件
sp-block	指定逻辑超节点芯片数量。	整数	Volcano、Ascend Operator
huawei.com/schedule_policy	指定调度策略。	目前支持表3中的配置。	Volcano
sp-fit	超节点调度策略。	idlest：逻辑超节点会调度到更空闲的物理超节点。	Volcano
huawei.com/schedule_minAvailable	任务能够调度的最小副本数。	整数	Volcano
huawei.com/recover_policy_path	任务重调度策略。	pod：只支持Pod级重调度，不升级为Job级别。	Volcano

表3 huawei.com/schedule_policy配置说明
配置	说明
chip4-node8	1个节点8张芯片，每4个芯片形成1个互联环。例如，Atlas 800 训练服务器（型号 9000）/Atlas 800 训练服务器（型号 9010）芯片的整模块场景。
chip1-node2	1个节点2张芯片。例如，Atlas 300T 训练卡的插卡场景，1张卡最多插1个芯片，1个节点最多插2张卡。
chip4-node4	1个节点4张芯片，形成1个互联环。例如，Atlas 800 训练服务器（型号 9000）/Atlas 800 训练服务器（型号 9010）芯片的半配场景。
chip8-node8	1个节点8张卡，8张卡都在1个互联环上。例如，Atlas 800T A2 训练服务器。
chip8-node16	1个节点16张卡，每8张卡在1个互联环上。例如，Atlas 200T A2 Box16 异构子框。
chip2-node16	1个节点16张卡，每2张卡在1个互联环上。例如，Atlas 800T A3 超节点服务器。
chip2-node16-sp	1个节点16张卡，每2张卡在1个互联环上，多个服务器形成超节点。例如，Atlas 900 A3 SuperPoD 超节点。

父主题： Volcano