选择YAML示例
集群调度为用户提供YAML示例,用户需要根据使用的组件、芯片类型和任务类型等,选择相应的YAML示例并根据需求进行相应修改后才可使用。
通过环境变量配置资源信息场景
- 若当前环境使用的是Atlas A2 训练系列产品,选择表1获取相应的YAML示例。
根据表1获取示例YAML后,Atlas 800T A2 训练服务器、Atlas 200T A2 Box16 异构子框和A200T A3 Box8 超节点可基于2.3.3.2-表 使用Ascend Job的YAML参数给出的参数说明进行修改适配。
 - 若当前环境使用的是Atlas 训练系列产品,选择表2获取相应的YAML示例。
根据表2获取示例YAML后,服务器(插Atlas 300T 训练卡)可基于Atlas 800 训练服务器的YAML,以及参考2.3.3.2-表 使用Ascend Job的YAML参数给出的参数说明进行修改适配。
 - 若当前环境使用的是Atlas A3 训练系列产品,选择表3获取相应的YAML示例。
 
任务类型  | 
硬件型号  | 
训练框架  | 
YAML文件名称  | 
说明  | 
获取链接  | 
|---|---|---|---|---|---|
Ascend Job  | 
Atlas 900 A2 PoD 集群基础单元  | 
TensorFlow  | 
tensorflow_multinodes_acjob_{xxx}b.yaml  | 
示例默认为双机2卡任务。  | 
  说明:  
芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。  | 
PyTorch  | 
pytorch_multinodes_acjob_{xxx}b.yaml  | 
示例默认为双机2卡任务。  | 
|||
MindSpore  | 
mindspore_multinodes_acjob_{xxx}b.yaml  | 
示例默认为双机16卡任务。  | 
|||
TensorFlow  | 
tensorflow_standalone_acjob_{xxx}b.yaml  | 
示例默认为单机单卡任务。  | 
|||
MindSpore  | 
mindspore_standalone_acjob_{xxx}b.yaml  | 
||||
PyTorch  | 
pytorch_standalone_acjob_{xxx}b.yaml  | 
||||
pytorch_multinodes_acjob_{xxx}b_with_ranktable.yaml  | 
示例默认为单机2卡任务。使用Ascend Operator组件生成RankTable文件。  | 
任务类型  | 
硬件型号  | 
训练框架  | 
YAML文件名称  | 
说明  | 
获取链接  | 
|---|---|---|---|---|---|
Ascend Job  | 
Atlas 800 训练服务器  | 
TensorFlow  | 
tensorflow_multinodes_acjob.yaml  | 
示例默认为双机8卡任务。  | 
|
PyTorch  | 
pytorch_multinodes_acjob.yaml  | 
示例默认为双机16卡任务。  | 
|||
MindSpore  | 
mindspore_multinodes_acjob.yaml  | 
示例默认为双机8卡任务。  说明:  
若下发单机8卡的MindSpore任务,需要将mindspore_multinodes_acjob.yaml中minAvailable修改为2,Worker的replicas修改为1。  | 
|||
TensorFlow  | 
tensorflow_standalone_acjob.yaml  | 
示例默认为单机单卡任务。  | 
|||
PyTorch  | 
pytorch_standalone_acjob.yaml  | 
||||
MindSpore  | 
mindspore_standalone_acjob.yaml  | 
通过文件配置资源信息场景
- 若当前环境使用的是Atlas A2 训练系列产品,选择表4获取相应的YAML示例。
根据表1获取示例YAML后,Atlas 800T A2 训练服务器、Atlas 200T A2 Box16 异构子框和A200T A3 Box8 超节点可基于表2给出的参数说明进行修改适配。
 - 若当前环境使用的是Atlas 训练系列产品,选择表5获取相应的YAML示例。
 
任务类型  | 
硬件型号  | 
训练框架  | 
YAML文件名称  | 
说明  | 
获取链接  | 
|---|---|---|---|---|---|
Volcano Job  | 
Atlas 900 A2 PoD 集群基础单元  | 
TensorFlow  | 
a800_tensorflow_vcjob.yaml  | 
示例默认为单机16卡任务。  | 
|
PyTorch  | 
a800_pytorch_vcjob.yaml  | 
||||
MindSpore  | 
a800_mindspore_vcjob.yaml  | 
||||
Deployment  | 
Atlas 900 A2 PoD 集群基础单元  | 
TensorFlow  | 
a800_tensorflow_deployment.yaml  | 
示例默认为单机16卡任务。  | 
|
PyTorch  | 
a800_pytorch_deployment.yaml  | 
||||
MindSpore  | 
a800_mindspore_deployment.yaml  | 
任务类型  | 
硬件型号  | 
训练框架  | 
YAML文件名称  | 
说明  | 
获取链接  | 
|---|---|---|---|---|---|
Volcano Job  | 
Atlas 800 训练服务器  | 
TensorFlow  | 
a800_tensorflow_vcjob.yaml  | 
示例默认为单机8卡任务。  | 
|
PyTorch  | 
a800_pytorch_vcjob.yaml  | 
||||
MindSpore  | 
a800_mindspore_vcjob.yaml  | 
||||
服务器(插Atlas 300T 训练卡)  | 
TensorFlow  | 
a300t_tensorflow_vcjob.yaml  | 
示例默认为单机单卡任务。  | 
||
PyTorch  | 
a300t_pytorch_vcjob.yaml  | 
||||
MindSpore  | 
a300t_mindspore_vcjob.yaml  | 
||||
Deployment  | 
Atlas 800 训练服务器  | 
TensorFlow  | 
a800_tensorflow_deployment.yaml  | 
示例默认为单机8卡任务。  | 
|
PyTorch  | 
a800_pytorch_deployment.yaml  | 
||||
MindSpore  | 
a800_mindspore_deployment.yaml  | 
||||
服务器(插Atlas 300T 训练卡)  | 
TensorFlow  | 
a300t_tensorflow_deployment.yaml  | 
示例默认为单机单卡任务。  | 
||
PyTorch  | 
a300t_pytorch_deployment.yaml  | 
示例默认为单机8卡任务。  | 
|||
MindSpore  | 
a300t_mindspore_deployment.yaml  | 
示例默认为单机单卡任务。  |