选择yaml示例
集群调度组件为用户提供yaml示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的yaml示例并根据需求进行相应修改后才可使用。
Job级别重调度模式
若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。
任务类型 |
硬件型号 |
模型 |
yaml文件名称 |
获取链接 |
说明 |
|---|---|---|---|---|---|
Ascend Job(MindCluster Ascend Operator) |
|
Resnet50 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
|
tensorflow_standalone_AscendJob_{xxx}b.yaml |
示例默认为单机4卡任务 |
||||
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机单卡任务 |
||||
盘古 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
|||
GPT-3 |
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
|||
Volcano Job(MindCluster HCCL Controller) |
Atlas 800 训练服务器 |
Resnet50 |
a800_tensorflow_vcjob.yaml |
示例默认为单机8卡任务 |
|
a800_pytorch_vcjob.yaml |
|||||
a800_vcjob.yaml(MindSpore架构) |
示例默认为单机单卡任务 |
||||
盘古 |
a800_vcjob.yaml(MindSpore架构) |
示例默认使用2*8卡任务 |
|||
|
GPT-3 |
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
优雅容错模式或Pod级别重调度
若当前故障处理模式为优雅容错模式,在表2中获取相应的yaml示例。
任务类型 |
硬件型号 |
模型 |
yaml文件名称 |
获取链接 |
说明 |
|---|---|---|---|---|---|
Ascend Job(MindCluster Ascend Operator) |
|
Resnet50 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
|
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机单卡任务,需要修改为单机8卡。 说明:
需要将huawei.com/Ascend910: 1 字段修改为8。 |
||||
GPT-3 |
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
|||
Atlas 800 训练服务器 |
盘古 |
a800_AscendJob.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
||
Volcano Job (MindCluster HCCL Controller) |
Atlas 800 训练服务器 |
Resnet50 |
a800_vcjob.yaml(MindSpore架构) |
示例默认为单机8卡任务 |
|
|
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
|||
GPT-3 |
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
|||
Atlas 800 训练服务器 |
盘古 |
a800_vcjob.yaml(MindSpore架构) |
示例默认使用2*8卡任务 |