选择yaml示例

本章节提供Atlas 训练系列产品Atlas A2 训练系列产品部分yaml示例,用户可根据需要使用的功能、模型类型、任务类型和故障处理模式等,参考相应的yaml示例进行修改后使用。

Job级别重调度模式

若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。

表1 Job级别重调度yaml

任务类型

硬件型号

模型

yaml文件名称

获取链接

说明

Ascend Job

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Volcano Job

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Pod级别重调度

若当前故障处理模式为Pod级别重调度,在表2中获取相应的yaml示例。

表2 Pod级别yaml

任务类型

硬件型号

模型

yaml文件名称

获取链接

说明

Ascend Job(Ascend Operator

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Volcano Job

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

进程级别重调度

当前暂未提供针对进程级别重调度的示例yaml,可参考LLAMA2模型适配示例(Pytorch场景)中的修改训练yaml步骤,对应修改yaml示例。