根据特性的不同,配置yaml操作也有所不同。本章节提供使用断点续训的配置yaml操作示例。在具体操作前,用户需要了解相关yaml示例的核心参数说明,再进行操作。使用MindCluster HCCL Controller的用户请参见表1;使用MindCluster Ascend Operator的用户请参见表2。
参数 |
取值 |
说明 |
---|---|---|
minAvailable |
|
N为节点个数,Deployment类型的任务不需要该参数,该参数建议与replicas保持一致。 |
replicas |
|
N为任务副本数。 |
image |
- |
训练镜像名称,请根据实际修改(用户在制作镜像章节制作的镜像名称)。 |
(可选)host-arch |
Arm环境:huawei-arm x86_64环境:huawei-x86 |
需要运行训练任务的节点架构,请根据实际修改。 分布式任务中,请确保运行训练任务的节点架构相同。 |
tor-affinity |
|
默认值为null,表示不使用交换机亲和性调度。用户需要根据任务类型进行配置。 说明:
当前版本只支持PyTorch和MindSpore框架的交换机亲和性调度。 |
accelerator-type |
根据所使用芯片类型不同,取值如下:
|
根据需要运行训练任务的节点类型,选取不同的值。如果节点是Atlas 800 训练服务器(NPU满配)和Atlas 800T A2 训练服务器,可以省略该标签。 说明:
|
huawei.com/Ascend910 |
根据所使用芯片类型不同,取值如下:
|
请求的NPU数量,请根据实际修改,请求整卡时不能再同时请求vNPU。 说明:
|
ring-controller.atlas |
|
配合自动生成ranktable使用的,任务使用芯片的区分。需要在ConfigMap和任务task中配置。 |
metadata.annotations['huawei.com/AscendXXX'] |
XXX表示芯片的型号,支持的取值为910,310和310P。取值需要和环境的实际芯片类型保持一致。 |
MindCluster Ascend Docker Runtime会获取该参数值,用于给容器挂载相应类型的NPU。 |
fault-scheduling |
grace |
配置任务采用优雅删除模式,并在过程中先优雅删除原Pod,15分钟后若还未成功,使用强制删除原Pod。 |
force |
配置任务采用强制删除模式,在过程中强制删除原Pod。设置为force时需要将yaml中的terminationGracePeriodSeconds字段配置为0或者删除该字段。 |
|
off |
该任务不使用断点续训特性,K8s的maxRetry仍然生效。 |
|
无(无fault-scheduling字段) |
||
其他值 |
||
fault-retry-times |
0 < fault-retry-times |
配置任务发生业务面故障可无条件重试的次数。 说明:
|
无(无fault-retry-times)或0 |
该任务不使用无条件重试功能,无法感知业务面故障,vcjob的maxRetry仍然生效。 |
|
maxRetry |
0 < maxRetry |
任务重调度次数。任务故障时,可以重调度的次数,当已经重调度次数与maxRetry取值相同时,任务将不再进行重调度。 说明:
同时配置了maxRetry和fault-retry-times参数时,当已经重调度次数与maxRetry或fault-retry-times取值有一个相同时,将不再进行重调度。 |
无(无maxRetry)或maxRetry等于0 |
不配置maxRetry或配置maxRetry取值为0时,系统默认进行3次重调度。 |
|
restartPolicy |
|
容器重启策略。当配置业务面故障无条件重试时,容器重启策略取值必须为“Never”。 |
terminationGracePeriodSeconds |
0 < terminationGracePeriodSeconds < "grace-over-time”参数的值 |
容器收到SIGTERM到被K8s强制停止经历的时间,该时间需要大于0且小于volcano-v{version}.yaml文件中“grace-over-time”参数的值,同时还需要保证能够保存完ckpt文件,请根据实际情况修改。具体说明请参考K8s官网容器生命周期回调。 说明:
只有当fault-scheduling配置为grace时,该字段才生效;fault-scheduling配置为force时,该字段无效。 |
参数 |
取值 |
说明 |
---|---|---|
framework |
|
框架类型,目前只支持三种。 |
ring-controller.atlas |
Atlas A2 训练系列产品:ascend-{xxx}b |
使用MindCluster Ascend Operator时,用于识别Atlas A2 训练系列产品和Atlas 训练系列产品,Atlas 训练系列产品不需要该参数。 |
schedulerName |
默认值为“volcano”,用户需根据自身情况填写 |
MindCluster Ascend Operator启用“gang”调度时所选择的调度器。 |
minAvailable |
默认值为任务总副本数 |
MindCluster Ascend Operator启用“gang”调度生效时,且调度器为MindCluster Volcano时,任务运行最少副本数。 |
queue |
默认值为“default”,用户需根据自身情况填写 |
MindCluster Ascend Operator启用“gang”调度生效时,且调度器为MindCluster Volcano时,任务所属队列。 |
(可选)successPolicy |
|
表明任务成功的前提。空值代表只需要一个Pod成功,整个任务判定为成功。取值为“AllWorkers”表示所有Pod都成功,任务才判定为成功代表。 |
container.name |
ascend |
训练容器的名称必须是“ascend”。 |
(可选)ports |
若用户未进行设置,系统默认填写以下参数:
|
分布式训练集合通讯端口。“name”取值只能为“ascendjob-port”,“containerPort”用户可根据实际情况设置,若未进行设置则采用默认端口2222。 |
replicas |
|
N为任务副本数。 |
image |
- |
训练镜像名称,请根据实际修改。 |
(可选)host-arch |
Arm环境:huawei-arm x86_64环境:huawei-x86 |
需要运行训练任务的节点架构,请根据实际修改。 分布式任务中,请确保运行训练任务的节点架构相同。 |
tor-affinity |
|
默认值为null,表示不使用交换机亲和性调度。用户需要根据任务类型进行配置。 说明:
|
accelerator-type |
|
根据需要运行训练任务的节点类型,选取不同的值。如果节点是Atlas 800 训练服务器(NPU满配),可以省略该标签。 说明:
|
huawei.com/Ascend910 |
Atlas 800 训练服务器(NPU满配):
Atlas 800 训练服务器(NPU半配):
服务器(插Atlas 300T 训练卡):
Atlas 800T A2 训练服务器和Atlas 900 A2 PoD 集群基础单元:
Atlas 200T A2 Box16 异构子框:
|
请求的NPU数量,请根据实际修改。 |
metadata.annotations['huawei.com/AscendXXX'] |
XXX表示芯片的型号,支持的取值为910,310和310P。取值需要和环境上实际的芯片类型保持一致。 |
MindCluster Ascend Docker Runtime会获取该参数值,用于给容器挂载相应类型的NPU。 说明:
该参数只支持使用MindCluster Volcano调度器的整卡调度特性,使用静态vNPU调度和其他调度器的用户需要删除示例yaml中该参数的相关字段。 |
fault-scheduling |
grace |
配置任务采用优雅删除模式,并在过程中先优雅删除原Pod,15分钟后若还未成功,使用强制删除原Pod。 |
force |
配置任务采用强制删除模式,在过程中强制删除原Pod。设置为force时需要将yaml中的terminationGracePeriodSeconds字段配置为0或者删除该字段。 |
|
off |
该任务不使用断点续训特性,K8s的maxRetry仍然生效。 |
|
无(无fault-scheduling字段) |
||
其他值 |
||
fault-retry-times |
0 < fault-retry-times |
配置任务发生业务面故障可无条件重试的次数。 说明:
|
无(无fault-retry-times)或0 |
该任务不使用无条件重试功能,无法感知业务面故障,vcjob的maxRetry仍然生效。 |
|
backoffLimit |
0< backoffLimit |
任务重调度次数。任务故障时,可以重调度的次数,当已经重调度次数与backoffLimit取值相同时,任务将不再进行重调度。 说明:
同时配置了backoffLimit和fault-retry-times参数时,当已经重调度次数与backoffLimit或fault-retry-times取值有一个相同时,将不再进行重调度。 |
无(无backoffLimit)或backoffLimit ≤ 0 |
不限制总重调度次数。 说明:
若不配置backoffLimit,但是配置了fault-retry-times参数,则使用fault-retry-times的重调度次数。 |
|
restartPolicy |
|
容器重启策略。当配置业务面故障无条件重试时,容器重启策略取值必须为“Never”。 |
terminationGracePeriodSeconds |
0 < terminationGracePeriodSeconds < "grace-over-time”参数的值 |
容器收到SIGTERM到被K8s强制停止经历的时间,该时间需要大于0且小于volcano-v{version}.yaml文件中“grace-over-time”参数的值,同时还需要保证能够保存完ckpt文件,请根据实际情况修改。具体说明请参考K8s官网容器生命周期回调。 说明:
只有当fault-scheduling配置为grace时,该字段才生效;fault-scheduling配置为force时,该字段无效。 |