集群调度组件为用户提供yaml示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的yaml示例并根据需求进行相应修改后才可使用。
若当前故障处理模式为重调度模式,在表1中获取相应的yaml示例。
任务类型 |
模型 |
yaml文件名称 |
获取链接 |
说明 |
---|---|---|---|---|
Volcano Job(MindCluster HCCL Controller) |
Resnet50 |
a800_tensorflow_vcjob.yaml |
示例默认为单机8卡任务 |
|
a800_pytorch_vcjob.yaml |
||||
a800_vcjob.yaml(MindSpore架构) |
示例默认为单机单卡任务 |
|||
盘古 |
a800_vcjob.yaml(MindSpore架构) |
示例默认使用2*8卡任务 |
||
GPT-3 |
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
||
Ascend Job(MindCluster Ascend Operator) |
Resnet50 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
|
tensorflow_standalone_AscendJob_{xxx}b.yaml |
示例默认为单机4卡任务 |
|||
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机单卡任务 |
|||
盘古 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
||
GPT-3 |
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
若当前故障处理模式为优雅容错模式,在表2中获取相应的yaml示例。
任务类型 |
模型 |
yaml文件名称 |
获取链接 |
说明 |
---|---|---|---|---|
Volcano Job (MindCluster HCCL Controller) |
Resnet50 |
a800_vcjob.yaml(MindSpore架构) |
示例默认为单机8卡任务 |
|
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
|||
盘古 |
a800_vcjob.yaml(MindSpore架构) |
示例默认使用2*8卡任务 |
||
GPT-3 |
pytorch_vcjob_{xxx}b.yaml |
示例默认为单机8卡任务 |
||
Ascend Job(MindCluster Ascend Operator) |
Resnet50 |
a800_AscendJob_{xxx}b.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
|
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机单卡任务,需要修改为单机8卡。 说明:
需要将huawei.com/Ascend910: 1 字段修改为8。 |
|||
盘古 |
a800_AscendJob.yaml(MindSpore架构) |
示例默认使用2*4卡任务 |
||
GPT-3 |
pytorch_standalone_acjob_{xxx}b.yaml |
示例默认为单机8卡任务 |