昇腾社区首页
中文
注册

选择yaml示例

集群调度组件为用户提供yaml示例,用户需要根据使用的组件、芯片类型和任务类型等,选择相应的yaml示例并根据需求进行相应修改后才可使用。

使用HCCL Controller

若当前环境使用的是Atlas 训练系列产品,选择表1获取相应的yaml示例;若当前环境使用的是Atlas A2 训练系列产品,选择表2获取相应的yaml示例。

表2中给出了Atlas 200T A2 Box16 异构子框形态下创建训练任务的yaml示例,Atlas 800T A2 训练服务器可基于Atlas 200T A2 Box16 异构子框的yaml参考表1给出的参数说明进行修改适配。

表1 Atlas 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Volcano Job

Atlas 800 训练服务器

TensorFlow

a800_tensorflow_vcjob.yaml

示例默认为单机8卡任务。

获取yaml

PyTorch

a800_pytorch_vcjob.yaml

MindSpore

a800_mindspore_vcjob.yaml

服务器(插Atlas 300T 训练卡

TensorFlow

a300t_tensorflow_vcjob.yaml

示例默认为单机单卡任务。

PyTorch

a300t_pytorch_vcjob.yaml

MindSpore

a300t_mindspore_vcjob.yaml

Deployment

Atlas 800 训练服务器

TensorFlow

a800_tensorflow_deployment.yaml

示例默认为单机8卡任务。

PyTorch

a800_pytorch_deployment.yaml

MindSpore

a800_mindspore_deployment.yaml

服务器(插Atlas 300T 训练卡

TensorFlow

a300t_tensorlfow_deployment.yaml

示例默认为单机单卡任务。

PyTorch

a300t_pytorch_deployment.yaml

示例默认为单机8卡任务。

MindSpore

a300t_mindspore_deployment.yaml

示例默认为单机单卡任务。

表2 Atlas A2 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Volcano Job

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

a800_tensorflow_vcjob.yaml

示例默认为单机16卡任务。

获取yaml

PyTorch

a800_pytorch_vcjob.yaml

MindSpore

a800_mindspore_vcjob.yaml

Deployment

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

a800_tensorflow_deployment.yaml

示例默认为单机16卡任务。

获取yaml

PyTorch

a800_pytorch_deployment.yaml

MindSpore

a800_mindspore_deployment.yaml

使用Ascend Operator

若当前环境使用的是Atlas 训练系列产品,选择表3获取相应的yaml示例;若当前环境使用的是Atlas A2 训练系列产品,选择表4获取相应的yaml示例。

  • 表3中仅给出了Atlas 800 训练服务器形态下创建训练任务的yaml示例,服务器(插Atlas 300T 训练卡)可基于Atlas 800 训练服务器的yaml参考表2给出的参数说明进行修改适配。
  • Atlas 800T A2 训练服务器Atlas 200T A2 Box16 异构子框可基于表2给出的参数说明进行修改适配。
表3 Atlas 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Ascend Job

Atlas 800 训练服务器

TensorFlow

tensorflow_multinodes_acjob.yaml

示例默认为双机8卡任务。

选择相应的训练框架后,获取yaml

PyTorch

pytorch_multinodes_acjob.yaml

示例默认为双机16卡任务。

MindSpore

mindspore_multinodes_acjob.yaml

示例默认为双机8卡任务。

TensorFlow

tensorflow_standalone_acjob.yaml

示例默认为单机单卡任务。

PyTorch

pytorch_standalone_acjob.yaml

MindSpore

mindspore_standalone_acjob.yaml

表4 Atlas A2 训练系列产品支持的yaml

任务类型

硬件型号

训练框架

yaml文件名称

说明

获取链接

Ascend Job

  • Atlas 200T A2 Box16 异构子框
  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

TensorFlow

tensorflow_multinodes_acjob_{xxx}b.yaml

示例默认为双机2卡任务。

选择相应的训练框架后,获取yaml

PyTorch

pytorch_multinodes_acjob_{xxx}b.yaml

示例默认为双机8卡任务。

MindSpore

mindspore_multinodes_acjob_{xxx}b.yaml

示例默认为双机16卡任务。

TensorFlow

tensorflow_standalone_acjob_{xxx}b.yaml

示例默认为单机单卡任务。

PyTorch

pytorch_standalone_acjob_{xxx}b.yaml

MindSpore

mindspore_standalone_acjob_{xxx}b.yaml