YAML参数说明
如果是acjob任务,在配置YAML前,请先了解相关YAML参数说明,详细说明如表1所示。
参数 |
取值 |
说明 |
---|---|---|
(.kind=="AscendJob").metadata.labels.framework |
|
框架类型,目前只支持三种。 |
(.kind=="AscendJob").metadata.labels."ring-controller.atlas" |
|
标识任务使用的芯片的产品类型。 需要在ConfigMap和任务task中配置。 |
(.kind=="AscendJob").metadata.labels.tor-affinity |
说明: 用户需要根据任务副本数,选择任务类型。任务副本数小于4为填充任务。任务副本数大于或等于4为大模型任务。普通任务不限制任务副本数。 |
默认值为null,表示不使用交换机亲和性调度。用户需要根据任务类型进行配置。 说明:
|
(.kind=="AscendJob").metadata.labels.pod-rescheduling |
|
Pod级别重调度,表示任务发生故障后,不会删除所有任务Pod,而是将发生故障的Pod进行删除,重新创建新Pod后进行重调度。 说明:
TensorFlow暂不支持Pod级别重调度。 |
(.kind=="AscendJob").metadata.labels.process-recover-enable |
|
默认为不使用该字段。 |
(.kind=="AscendJob").metadata.annotations.recover-strategy |
任务可用恢复策略。
|
|
(.kind=="AscendJob").metadata.labels.subHealthyStrategy |
|
节点状态为亚健康(SubHealthy)的节点的处理策略。 说明:
使用graceExit策略时,需保证训练框架能够接收SIGTERM信号并保存ckpt文件。 |
(.kind=="AscendJob").specs.schedulerName |
默认值为“volcano”,用户需根据自身情况填写 |
Ascend Operator启用“gang”调度时所选择的调度器。 |
(.kind=="AscendJob").spec.runPolicy.schedulingPolicy.minAvailable |
默认值为任务总副本数 |
Ascend Operator启用“gang”调度生效时,且调度器为Volcano时,任务运行总副本数。 |
(.kind=="AscendJob").spec.runPolicy.schedulingPolicy.queue |
默认值为“default”,用户需根据自身情况填写 |
Ascend Operator启用“gang”调度生效时,且调度器为Volcano时,任务所属队列。 |
(可选)(.kind=="AscendJob").spec.successPolicy |
|
表明任务成功的前提。空值代表只需要一个Pod成功,整个任务判定为成功。取值为“AllWorkers”表示所有Pod都成功,任务才判定为成功代表。 |
(.kind=="AscendJob").spec.replicaSpecs.[Master|Scheduler|Worker].template.spec.containers[0].name |
ascend |
容器的名称必须是“ascend”。 |
(可选)(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.containers[0].ports |
若用户未进行设置,系统默认填写以下参数:
|
分布式训练集合通讯端口。“name”取值只能为“ascendjob-port”,“containerPort”用户可根据实际情况设置,若未进行设置则采用默认端口2222。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.replicas |
|
N为任务副本数。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.containers[0].image |
- |
训练镜像名称,请根据实际修改。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec. nodeSelector.host-arch |
Arm环境:huawei-arm x86_64环境:huawei-x86 |
需要运行训练任务的节点架构,请根据实际修改。 分布式任务中,请确保运行训练任务的节点架构相同。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec. nodeSelector.accelerator-type |
|
根据需要运行训练任务的节点类型,选取不同的值。
说明:
芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。 |
(.kind=="AscendJob").metadata.annotations.sp-block |
指定逻辑超节点芯片数量。
|
指定sp-block字段,集群调度组件会在物理超节点的基础上根据切分策略划分出逻辑超节点,用于训练任务的亲和性调度。 了解详细说明请参见总线设备节点网络说明。 说明:
|
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.containers[0].resources.requests.huawei.com/Ascend910 |
Atlas 800 训练服务器(NPU满配):
Atlas 800 训练服务器(NPU半配):
服务器(插Atlas 300T 训练卡):
Atlas 800T A2 训练服务器和Atlas 900 A2 PoD 集群基础单元:
Atlas 200T A2 Box16 异构子框:
Atlas 900 A3 SuperPoD 超节点、A200T A3 Box8 超节点服务器、Atlas 800T A3 超节点服务器:
|
请求的NPU数量,请根据实际修改。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.containers[0].env[name==ASCEND_VISIBLE_DEVICES].valueFrom.fieldRef.fieldPath |
取值为metadata.annotations['huawei.com/AscendXXX'],其中XXX表示芯片的型号,支持的取值为910,310和310P。取值需要和环境上实际的芯片类型保持一致。 |
Ascend Docker Runtime会获取该参数值,用于给容器挂载相应类型的NPU。 说明:
该参数只支持使用Volcano调度器的整卡调度特性,使用静态vNPU调度和其他调度器的用户需要删除示例YAML中该参数的相关字段。 |
(.kind=="AscendJob").metadata.labels.fault-scheduling |
grace |
配置任务采用优雅删除模式,并在过程中先优雅删除原Pod,15分钟后若还未成功,使用强制删除原Pod。 说明:
当前GPT-3模型支持使用临终遗言,该功能需要使用优雅删除模式。 |
force |
配置任务采用强制删除模式,在过程中强制删除原Pod。 |
|
off |
该任务不使用断点续训特性,K8s的maxRetry仍然生效。 |
|
无(无fault-scheduling字段) |
||
其他值 |
||
(.kind=="AscendJob").metadata.labels.fault-retry-times |
0 < fault-retry-times |
处理业务面故障,必须配置业务面可无条件重试的次数。 说明:
|
无(无fault-retry-times)或0 |
该任务不使用无条件重试功能,无法感知业务面故障,vcjob的maxRetry仍然生效。 |
|
(.kind=="AscendJob").spec.runPolicy.backoffLimit |
0 < backoffLimit |
任务重调度次数。任务故障时,可以重调度的次数,当已经重调度次数与backoffLimit取值相同时,任务将不再进行重调度。 说明:
同时配置了backoffLimit和fault-retry-times参数时,当已经重调度次数与backoffLimit或fault-retry-times取值有一个相同时,将不再进行重调度。 |
无(无backoffLimit)或backoffLimit ≤ 0 |
不限制总重调度次数。 说明:
若不配置backoffLimit,但是配置了fault-retry-times参数,则使用fault-retry-times的重调度次数。 |
|
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.restartPolicy |
说明:
vcjob类型的训练任务不支持ExitCode。 |
容器重启策略。当配置业务面故障无条件重试时,容器重启策略取值必须为“Never”。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.terminationGracePeriodSeconds |
0 < terminationGracePeriodSeconds < grace-over-time参数取值 |
容器收到SIGTERM到被K8s强制停止经历的时间,该时间需要大于0且小于volcano-v{version}.yaml文件中“grace-over-time”参数取值,同时还需要保证能够保存ckpt文件,请根据实际情况修改。具体说明请参考K8s官网容器生命周期回调。 说明:
只有当fault-scheduling配置为grace时,该字段才生效;fault-scheduling配置为force时,该字段无效。 |
(.kind=="AscendJob").spec.replicaSpecs.{Master|Scheduler|Worker}.template.spec.hostNetwork |
|
|