选择yaml示例

集群调度组件为用户提供yaml示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的yaml示例并根据需求进行相应修改后才可使用。

重调度模式

若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。

表1 重调度yaml

任务类型

模型

yaml文件名称

获取链接

说明

Volcano Job(MindCluster HCCL Controller

Resnet50

a800_tensorflow_vcjob.yaml

获取yaml

示例默认为单机8卡任务

a800_pytorch_vcjob.yaml

获取yaml

a800_vcjob.yaml(MindSpore架构)

获取yaml

示例默认为单机单卡任务

盘古

a800_vcjob.yaml(MindSpore架构)

获取yaml

示例默认使用2*8卡任务

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Ascend Job(MindCluster Ascend Operator

Resnet50

a800_AscendJob_{xxx}b.yaml(MindSpore架构)

获取yaml

示例默认使用2*4卡任务

tensorflow_standalone_AscendJob_{xxx}b.yaml

获取yaml

示例默认为单机4卡任务

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机单卡任务

盘古

a800_AscendJob_{xxx}b.yaml(MindSpore架构)

获取yaml

示例默认使用2*4卡任务

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

优雅容错模式

若当前故障处理模式为优雅容错模式,在表2中获取相应的yaml示例。

表2 优雅容错yaml

任务类型

模型

yaml文件名称

获取链接

说明

Volcano Job

MindCluster HCCL Controller

Resnet50

a800_vcjob.yaml(MindSpore架构)

获取yaml

示例默认为单机8卡任务

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

盘古

a800_vcjob.yaml(MindSpore架构)

获取yaml

示例默认使用2*8卡任务

GPT-3

pytorch_vcjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务

Ascend Job(MindCluster Ascend Operator

Resnet50

a800_AscendJob_{xxx}b.yaml(MindSpore架构)

获取yaml

示例默认使用2*4卡任务

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机单卡任务,需要修改为单机8卡。

说明:

需要将huawei.com/Ascend910: 1 字段修改为8。

盘古

a800_AscendJob.yaml(MindSpore架构)

获取yaml

示例默认使用2*4卡任务

GPT-3

pytorch_standalone_acjob_{xxx}b.yaml

获取yaml

示例默认为单机8卡任务