昇腾社区首页
中文
注册

选择yaml示例

集群调度为用户提供yaml示例,用户需要根据使用的组件、芯片类型和任务类型等,选择相应的yaml示例并根据需求进行相应修改后才可使用。

通过环境变量配置资源信息场景

  • 若当前环境使用的是Atlas A2 训练系列产品,选择表1获取相应的yaml示例。
  • 若当前环境使用的是Atlas 训练系列产品,选择表2获取相应的yaml示例。
  • Atlas 800T A2 训练服务器Atlas 200T A2 Box16 异构子框可基于表1给出的参数说明进行修改适配。
  • 表2中仅给出了Atlas 800 训练服务器形态下创建训练任务的yaml示例,服务器(插Atlas 300T 训练卡)可基于Atlas 800 训练服务器的yaml参考表1给出的参数说明进行修改适配。
表1 Atlas A2 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Ascend Job

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

tensorflow_multinodes_acjob_{xxx}b.yaml

示例默认为双机2卡任务。

选择相应的训练框架后,获取yaml

说明:

芯片型号的数值可通过npu-smi info命令查询,返回的“Name”字段对应信息为芯片型号,下文的{xxx}即取“910”字符作为芯片型号数值。

PyTorch

pytorch_multinodes_acjob_{xxx}b.yaml

示例默认为双机2卡任务。

MindSpore

mindspore_multinodes_acjob_{xxx}b.yaml

示例默认为双机16卡任务。

TensorFlow

tensorflow_standalone_acjob_{xxx}b.yaml

示例默认为单机单卡任务。

MindSpore

mindspore_standalone_acjob_{xxx}b.yaml

PyTorch

pytorch_standalone_acjob_{xxx}b.yaml

pytorch_multinodes_acjob_{xxx}b_with_ranktable.yaml

示例默认为单机2卡任务。使用Ascend Operator组件生成RankTable文件。

表2 Atlas 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Ascend Job

Atlas 800 训练服务器

TensorFlow

tensorflow_multinodes_acjob.yaml

示例默认为双机8卡任务。

选择相应的训练框架后,获取yaml

PyTorch

pytorch_multinodes_acjob.yaml

示例默认为双机16卡任务。

MindSpore

mindspore_multinodes_acjob.yaml

示例默认为双机8卡任务。

说明:

若下发单机8卡的MindSpore任务,需要将mindspore_multinodes_acjob.yaml中minAvailable修改为2,Worker的replicas修改为1。

TensorFlow

tensorflow_standalone_acjob.yaml

示例默认为单机单卡任务。

PyTorch

pytorch_standalone_acjob.yaml

MindSpore

mindspore_standalone_acjob.yaml

通过文件配置资源信息场景

  • 若当前环境使用的是Atlas A2 训练系列产品,选择表3获取相应的yaml示例。
  • 若当前环境使用的是Atlas 训练系列产品,选择表4获取相应的yaml示例。

表3中给出了Atlas 200T A2 Box16 异构子框形态下创建训练任务的yaml示例,Atlas 800T A2 训练服务器可基于Atlas 200T A2 Box16 异构子框的yaml参考表2给出的参数说明进行修改适配。

表3 Atlas A2 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Volcano Job

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

a800_tensorflow_vcjob.yaml

示例默认为单机16卡任务。

获取yaml

PyTorch

a800_pytorch_vcjob.yaml

MindSpore

a800_mindspore_vcjob.yaml

Deployment

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

a800_tensorflow_deployment.yaml

示例默认为单机16卡任务。

获取yaml

PyTorch

a800_pytorch_deployment.yaml

MindSpore

a800_mindspore_deployment.yaml

表4 Atlas 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Volcano Job

Atlas 800 训练服务器

TensorFlow

a800_tensorflow_vcjob.yaml

示例默认为单机8卡任务。

获取yaml

PyTorch

a800_pytorch_vcjob.yaml

MindSpore

a800_mindspore_vcjob.yaml

服务器(插Atlas 300T 训练卡

TensorFlow

a300t_tensorflow_vcjob.yaml

示例默认为单机单卡任务。

PyTorch

a300t_pytorch_vcjob.yaml

MindSpore

a300t_mindspore_vcjob.yaml

Deployment

Atlas 800 训练服务器

TensorFlow

a800_tensorflow_deployment.yaml

示例默认为单机8卡任务。

PyTorch

a800_pytorch_deployment.yaml

MindSpore

a800_mindspore_deployment.yaml

服务器(插Atlas 300T 训练卡

TensorFlow

a300t_tensorlfow_deployment.yaml

示例默认为单机单卡任务。

PyTorch

a300t_pytorch_deployment.yaml

示例默认为单机8卡任务。

MindSpore

a300t_mindspore_deployment.yaml

示例默认为单机单卡任务。