YAML参数说明
下表仅说明OME的Serving Runtime YAML中与MindCluster有关的字段。
参数 |
取值 |
说明 |
|---|---|---|
schedulerName |
取值为“volcano”。 |
配置调度器为Volcano。 |
(可选)host-arch |
|
需要运行训练任务的节点架构,请根据实际修改。 分布式任务中,请确保运行训练任务的节点架构相同。 |
sp-block |
指定逻辑超节点芯片数量。 需要是节点芯片数量的整数倍,且P/D实例的总芯片数量是其整数倍。 |
指定sp-block字段,集群调度组件会在物理超节点上根据切分策略划分出逻辑超节点,用于训练任务的亲和性调度。若用户未指定该字段,Volcano调度时会将此任务的逻辑超节点大小指定为任务配置的NPU总数。 了解详细说明请参见灵衢总线设备节点网络说明。 说明:
仅支持在Atlas 900 A3 SuperPoD 超节点中使用该字段。 |
huawei.com/schedule_minAvailable |
整数 |
任务能够调度的最小副本数。在实例不跨机,即Deployment场景下必须指定该字段,根据该字段所属的P实例或者D实例,配置为engine或者decoder的生效副本数量。其他场景下不需要指定该字段。 |
pod-rescheduling |
|
Pod级重调度,表示任务发生故障后,不会删除PodGroup内的所有任务Pod,而是将发生故障的Pod进行删除,由控制器重新创建新Pod后进行重调度。 说明:
OME推理任务需要将此字段配置为“on”,MindCluster对发生故障的P/D实例进行重调度。 |
accelerator-type |
|
根据需要运行训练任务的节点类型,选取不同的值。 |
huawei.com/Ascend910 |
|
请求的NPU数量。当前仅支持整机调度,请根据实际硬件卡数进行修改。 |
env[name==ASCEND_VISIBLE_DEVICES].valueFrom.fieldRef.fieldPath |
取值为metadata.annotations['huawei.com/Ascend910'],和环境上实际的芯片类型保持一致。 |
Ascend Docker Runtime会获取该参数值,用于给容器挂载相应类型的NPU。 说明:
该参数只支持使用Volcano调度器的整卡调度特性,使用静态vNPU调度和其他调度器的用户需要删除示例YAML中该参数的相关字段。 |
fault-scheduling |
grace |
配置任务采用优雅删除模式,并在过程中先优雅删除原Pod,15分钟后若还未成功,使用强制删除原Pod。 |
force |
配置任务采用强制删除模式,在过程中强制删除原Pod。 |
|
off |
该推理任务不使用故障重调度特性。 |
|
无(无fault-scheduling字段) |
||
其他值 |
||
fault-retry-times |
0 < fault-retry-times |
处理业务面故障,必须配置业务面无条件重试的次数。 |
无(无fault-retry-times)或0 |
该任务不使用无条件重试功能,发生业务面故障之后Volcano不会主动删除故障的Pod。 |