选择yaml示例 本章节提供Atlas 训练系列产品和Atlas A2 训练系列产品部分yaml示例,用户可根据需要使用的功能、模型类型、任务类型和故障处理模式等,参考相应的yaml示例进行修改后使用。 重调度模式:Job级别重调度Pod级别重调度进程级别重调度 Job级别重调度模式若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。 表1 Job级别重调度yaml任务类型 硬件型号 模型 yaml文件名称 获取链接 说明 Ascend Job Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元 GPT-3 pytorch_standalone_acjob_{xxx}b.yaml 获取yaml 示例默认为单机8卡任务 Volcano Job Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元 GPT-3 pytorch_vcjob_{xxx}b.yaml 获取yaml 示例默认为单机8卡任务 Pod级别重调度若当前故障处理模式为Pod级别重调度,在表2中获取相应的yaml示例。 表2 Pod级别yaml任务类型 硬件型号 模型 yaml文件名称 获取链接 说明 Ascend Job(Ascend Operator) Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元 GPT-3 pytorch_standalone_acjob_{xxx}b.yaml 获取yaml 示例默认为单机8卡任务 Volcano Job Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元 GPT-3 pytorch_vcjob_{xxx}b.yaml 获取yaml 示例默认为单机8卡任务 进程级别重调度当前暂未提供针对进程级别重调度的示例yaml,可参考LLAMA2模型适配示例(Pytorch场景)中的修改训练yaml步骤,对应修改yaml示例。 父主题: 准备任务yaml