PodGroup
名称 |
作用 |
取值 |
使用组件 |
|---|---|---|---|
ring-controller.atlas |
标识Atlas的Pod |
|
Ascend Device Plugin、Ascend Operator、Volcano |
fault-scheduling |
任务故障重调度开关 |
grace、force、off |
Volcano、Resilience Controller |
elastic-scheduling |
任务弹性调度开关 |
on |
Resilience Controller、Volcano |
fault-retry-times |
任务发生业务面故障可以重调度的次数 |
0-100 |
Volcano、Ascend Operator |
tor-affinity |
交换机亲和性策略 |
|
Volcano |
npu-310-strategy |
标记推理服务器(插Atlas 300I 推理卡)调度策略 |
|
Volcano |
pod-rescheduling |
是否启用Pod级别重调度。 |
|
Volcano |
process-recover-enable |
是否启用进程级别重调度。 |
|
Volcano |
subHealthyStrategy |
亚健康处理策略 |
|
Volcano |
名称 |
作用 |
取值 |
使用组件 |
|---|---|---|---|
sp-block |
指定逻辑超节点芯片数量。 |
整数 |
Volcano、Ascend Operator |
huawei.com/schedule_policy |
指定调度策略。 |
目前支持表3中的配置。 |
Volcano |
sp-fit |
超节点调度策略。 |
idlest:逻辑超节点会调度到更空闲的物理超节点。 |
Volcano |
huawei.com/schedule_minAvailable |
任务能够调度的最小副本数。 |
整数 |
Volcano |
huawei.com/recover_policy_path |
任务重调度策略。 |
pod:只支持Pod级重调度,不升级为Job级别。 |
Volcano |
huawei.com/schedule_enable_dequeue |
是否启动任务可出队(从Inqueue变为Pending状态)功能。需手动配置。 |
不配置则默认关闭。 |
Volcano |
huawei.com/schedule_dequeue_frequency |
记录任务出队次数。Volcano自动更新。 |
任务出队1次,该值加1。 说明: 任务不处于Inqueue、Pending状态时,删除该值。 |
Volcano |
huawei.com/schedule_enqueue_time |
记录任务入队(从Pending变为Inqueue状态)时间。Volcano自动更新。 |
毫秒级时间戳。 说明:
|
Volcano |
配置 |
说明 |
|---|---|
chip4-node8 |
1个节点8张芯片,每4个芯片形成1个互联环。例如,Atlas 800 训练服务器(型号 9000)/Atlas 800 训练服务器(型号 9010)芯片的整模块场景。 |
chip1-node2 |
1个节点2张芯片。例如,Atlas 300T 训练卡的插卡场景,1张卡最多插1个芯片,1个节点最多插2张卡。 |
chip4-node4 |
1个节点4张芯片,形成1个互联环。例如,Atlas 800 训练服务器(型号 9000)/Atlas 800 训练服务器(型号 9010)芯片的半配场景。 |
chip8-node8 |
1个节点8张卡,8张卡都在1个互联环上。例如,Atlas 800T A2 训练服务器。 |
chip8-node16 |
1个节点16张卡,每8张卡在1个互联环上。例如,Atlas 200T A2 Box16 异构子框。 |
chip2-node16 |
1个节点16张卡,每2张卡在1个互联环上。例如,Atlas 800T A3 超节点服务器。 |
chip2-node16-sp |
1个节点16张卡,每2张卡在1个互联环上,多个服务器形成超节点。例如,Atlas 900 A3 SuperPoD 超节点。 |