昇腾社区首页
中文
注册
开发者
下载

YAML参数说明

下表仅说明AIBrix的StormService YAML中与MindCluster有关的字段。

表1 YAML参数说明

参数

取值

说明

schedulerName

取值为“volcano”

配置调度器为Volcano

(可选)host-arch

  • Arm环境:huawei-arm
  • x86_64环境:huawei-x86

需要运行训练任务的节点架构,请根据实际修改。

分布式任务中,请确保运行训练任务的节点架构相同。

sp-block

指定逻辑超节点芯片数量。

需要是节点芯片数量的整数倍,且P/D实例的总芯片数量是其整数倍。

指定sp-block字段,集群调度组件会在物理超节点上根据切分策略划分出逻辑超节点,用于训练任务的亲和性调度。若用户未指定该字段,Volcano调度时会将此任务的逻辑超节点大小指定为任务配置的NPU总数。

了解详细说明请参见灵衢总线设备节点网络说明

说明:

仅支持在Atlas 900 A3 SuperPoD 超节点中使用该字段。

pod-rescheduling

  • on:开启Pod级别重调度。
  • 其他值或不使用该字段:关闭Pod级别重调度。

Pod级重调度,表示任务发生故障后,不会删除PodGroup内的所有任务Pod,而是将发生故障的Pod进行删除,由控制器重新创建新Pod后进行重调度。

说明:

如果podGroupSize为1,pod-rescheduling需要配置为"on";podGroupSize大于1时,不配置该参数。

huawei.com/schedule_minAvailable

数字类型字符串

Gang调度策略下最小调度的副本数。在StormService中,

  • 所有podGroupSize为1的实例会组成一个podGroup进行调度,其最小调度的副本数范围为[1, 实例replicas之和],建议配置为实例replicas之和;
  • podGroupSize大于1的实例各自组成一个podGroup,其最小调度副本数范围为[1, podGroupSize],建议配置为podGroupSize。

例如,prefill实例的podGroupSize为1,decode实例的podGroupSize为2,那么prefill实例的最小调度副本数设置为prefill实例的replicas,decode实例的最小调度副本数设置为decode实例的podGroupSize。

huawei.com/recover_policy_path

"pod"

pod-rescheduling为"on"时任务执行恢复的路径。设置为"pod",表明Pod级重调度失败时,不升级到Job级重调度。因为当前podGroup中的每一个Pod都是一个独立的实例,所以其故障处理不能扩散到其他实例。

accelerator-type

  • Atlas 800I A2 推理服务器:module-910b-8
  • Atlas 800I A3 超节点服务器:module-a3-16
  • Atlas 900 A3 SuperPoD 超节点:module-a3-16-super-pod

根据需要运行训练任务的节点类型,选取不同的值。

huawei.com/Ascend910

  • Atlas 800I A2 推理服务器:8
  • Atlas 900 A3 SuperPoD 超节点Atlas 800I A3 超节点服务器: 16

请求的NPU数量。当前仅支持整机调度,请根据实际硬件卡数进行修改。

env[name==ASCEND_VISIBLE_DEVICES].valueFrom.fieldRef.fieldPath

取值为metadata.annotations['huawei.com/Ascend910'],和环境上实际的芯片类型保持一致。

Ascend Docker Runtime会获取该参数值,用于给容器挂载相应类型的NPU。

说明:

该参数只支持使用Volcano调度器的整卡调度特性,使用静态vNPU调度和其他调度器的用户需要删除示例YAML中该参数的相关字段。

fault-scheduling

grace

配置任务采用优雅删除模式,并在过程中先优雅删除原Pod,15分钟后若还未成功,使用强制删除原Pod

force

配置任务采用强制删除模式,在过程中强制删除原Pod

off

该推理任务不使用故障重调度特性。

无(无fault-scheduling字段)

其他值

fault-retry-times

0 < fault-retry-times

处理业务面故障,必须配置业务面无条件重试的次数。

无(无fault-retry-times)或0

该任务不使用无条件重试功能,发生业务面故障之后Volcano不会主动删除故障的Pod

restartPolicy

  • Never:从不重启
  • Always:总是重启
  • OnFailure:失败时重启
  • ExitCode:根据进程退出码决定是否重启Pod,错误码是1~127时不重启,128~255时重启Pod。
    说明:

    vcjob类型的训练任务不支持ExitCode。

容器重启策略。当配置业务面故障无条件重试时,容器重启策略取值必须为“Never”