本章节提供Atlas 训练系列产品和Atlas A2 训练系列产品部分yaml示例,用户可根据需要使用的功能、模型类型、任务类型和故障处理模式等,参考相应的yaml示例进行修改后使用。
Job级别重调度模式
若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。
表1 Job级别重调度yaml任务类型
|
硬件型号
|
模型
|
yaml文件名称
|
获取链接
|
说明
|
Ascend Job
|
- Atlas 800T A2 训练服务器
- Atlas 900 A2 PoD 集群基础单元
|
GPT-3
|
pytorch_standalone_acjob_{xxx}b.yaml
|
获取yaml
|
示例默认为单机8卡任务
|
Volcano Job
|
- Atlas 800T A2 训练服务器
- Atlas 900 A2 PoD 集群基础单元
|
GPT-3
|
pytorch_vcjob_{xxx}b.yaml
|
获取yaml
|
示例默认为单机8卡任务
|
Pod级别重调度
若当前故障处理模式为Pod级别重调度,在表2中获取相应的yaml示例。
表2 Pod级别yaml任务类型
|
硬件型号
|
模型
|
yaml文件名称
|
获取链接
|
说明
|
Ascend Job(Ascend Operator)
|
- Atlas 800T A2 训练服务器
- Atlas 900 A2 PoD 集群基础单元
|
GPT-3
|
pytorch_standalone_acjob_{xxx}b.yaml
|
获取yaml
|
示例默认为单机8卡任务
|
Volcano Job
|
- Atlas 800T A2 训练服务器
- Atlas 900 A2 PoD 集群基础单元
|
GPT-3
|
pytorch_vcjob_{xxx}b.yaml
|
获取yaml
|
示例默认为单机8卡任务
|