准备任务YAML

集群调度组件为用户提供YAML示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的YAML示例并根据需求进行相应修改后才可使用。

表1 LLAMA2模型训练任务YAML示例

任务类型

硬件型号

模型

YAML文件名称

获取链接

说明

Ascend Job

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

LLAMA2

pytorch_multinodes_acjob_910b.yaml

pytorch_multinodes_acjob_910b.yaml

示例默认使用2*8卡任务

Ascend Job

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元

LLAMA2

ms_multinodes_acjob_910b.yaml

ms_multinodes_acjob_910b.yaml

示例默认使用2*8卡任务

当前断点续训并未提供Atlas 900 A3 SuperPoD 超节点产品的示例YAML,用户可以在示例YAML中的labels下新增annotations字段即可。示例如下:
...
  labels: 
...
  annotations:
    sp-block: "32"   # 逻辑超节点芯片数量,sp-block字段的详细说明,可以参见YAML参数说明。
...