集群调度组件为用户提供YAML示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的YAML示例并根据需求进行相应修改后才可使用。
任务类型 |
硬件型号 |
模型 |
YAML文件名称 |
获取链接 |
说明 |
---|---|---|---|---|---|
Ascend Job |
|
LLAMA2 |
pytorch_multinodes_acjob_910b.yaml |
示例默认使用2*8卡任务 |
|
Ascend Job |
|
LLAMA2 |
ms_multinodes_acjob_910b.yaml |
示例默认使用2*8卡任务 |
... labels: ... annotations: sp-block: "32" # 逻辑超节点芯片数量,sp-block字段的详细说明,可以参见YAML参数说明。 ...