开发者
资源

选择yaml示例

本章节提供Atlas 训练系列产品Atlas A2 训练系列产品部分yaml示例,用户可根据需要使用的功能、模型类型、任务类型和故障处理模式等,参考相应的yaml示例进行修改后使用。
使用Atlas 900 A3 SuperPoD 集群算力系统产品时(Atlas A3 训练系列产品),在示例yaml中的labels下新增annotations字段即可。示例如下:
...
  labels: 
...
  annotations:
    sp-block: "32"   # 逻辑超节点芯片数量,sp-block字段的详细说明,可以参见yaml参数说明。
...

Job级别重调度模式

若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。

表1 Job级别重调度yaml

任务类型

硬件型号

模型

yaml文件名称

获取链接

说明

Ascend Job(Ascend Operator

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Volcano Job(HCCL Controller

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Pod级别重调度

若当前故障处理模式为Pod级别重调度,在表2中获取相应的yaml示例。

表2 Pod级别yaml

任务类型

硬件型号

模型

yaml文件名称

获取链接

说明

Ascend Job(Ascend Operator

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Volcano Job

HCCL Controller

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务