YAML参数说明

下表仅说明AIBrix的StormService YAML中与MindCluster有关的字段。

表1 YAML参数说明
参数	取值	说明
schedulerName	取值为“volcano”。	配置调度器为Volcano。
（可选）host-arch	Arm环境：huawei-arm x86_64环境：huawei-x86	需要运行训练任务的节点架构，请根据实际修改。分布式任务中，请确保运行训练任务的节点架构相同。
sp-block	指定逻辑超节点芯片数量。需要是节点芯片数量的整数倍，且P/D实例的总芯片数量是其整数倍。	指定sp-block字段，集群调度组件会在物理超节点上根据切分策略划分出逻辑超节点，用于训练任务的亲和性调度。若用户未指定该字段，Volcano调度时会将此任务的逻辑超节点大小指定为任务配置的NPU总数。了解详细说明请参见灵衢总线设备节点网络说明。说明：仅支持在Atlas 900 A3 SuperPoD 超节点中使用该字段。
pod-rescheduling	on：开启Pod级别重调度。其他值或不使用该字段：关闭Pod级别重调度。	Pod级重调度，表示任务发生故障后，不会删除PodGroup内的所有任务Pod，而是将发生故障的Pod进行删除，由控制器重新创建新Pod后进行重调度。说明：如果podGroupSize为1，pod-rescheduling需要配置为"on"；podGroupSize大于1时，不配置该参数。
huawei.com/schedule_minAvailable	数字类型字符串	Gang调度策略下最小调度的副本数。在StormService中，所有podGroupSize为1的实例会组成一个podGroup进行调度，其最小调度的副本数范围为[1, 实例replicas之和]，建议配置为实例replicas之和； podGroupSize大于1的实例各自组成一个podGroup，其最小调度副本数范围为[1, podGroupSize]，建议配置为podGroupSize。例如，prefill实例的podGroupSize为1，decode实例的podGroupSize为2，那么prefill实例的最小调度副本数设置为prefill实例的replicas，decode实例的最小调度副本数设置为decode实例的podGroupSize。
huawei.com/recover_policy_path	"pod"	pod-rescheduling为"on"时任务执行恢复的路径。设置为"pod"，表明Pod级重调度失败时，不升级到Job级重调度。因为当前podGroup中的每一个Pod都是一个独立的实例，所以其故障处理不能扩散到其他实例。
accelerator-type	Atlas 800I A2 推理服务器：module-910b-8 Atlas 800I A3 超节点服务器：module-a3-16 Atlas 900 A3 SuperPoD 超节点：module-a3-16-super-pod	根据需要运行训练任务的节点类型，选取不同的值。
huawei.com/Ascend910	Atlas 800I A2 推理服务器：8 Atlas 900 A3 SuperPoD 超节点、Atlas 800I A3 超节点服务器: 16	请求的NPU数量。当前仅支持整机调度，请根据实际硬件卡数进行修改。
env[name==ASCEND_VISIBLE_DEVICES].valueFrom.fieldRef.fieldPath	取值为metadata.annotations['huawei.com/Ascend910']，和环境上实际的芯片类型保持一致。	Ascend Docker Runtime会获取该参数值，用于给容器挂载相应类型的NPU。说明：该参数只支持使用Volcano调度器的整卡调度特性，使用静态vNPU调度和其他调度器的用户需要删除示例YAML中该参数的相关字段。
fault-scheduling	grace	配置任务采用优雅删除模式，并在过程中先优雅删除原Pod，15分钟后若还未成功，使用强制删除原Pod。
	force	配置任务采用强制删除模式，在过程中强制删除原Pod。
	off	该推理任务不使用故障重调度特性。
	无（无fault-scheduling字段）
	其他值
fault-retry-times	0 < fault-retry-times	处理业务面故障，必须配置业务面无条件重试的次数。
fault-retry-times	无（无fault-retry-times）或0	该任务不使用无条件重试功能，发生业务面故障之后Volcano不会主动删除故障的Pod。
restartPolicy	Never：从不重启 Always：总是重启 OnFailure：失败时重启 ExitCode：根据进程退出码决定是否重启Pod，错误码是1~127时不重启，128~255时重启Pod。说明： vcjob类型的训练任务不支持ExitCode。	容器重启策略。当配置业务面故障无条件重试时，容器重启策略取值必须为“Never”。

父主题： 通过命令行使用