准备任务YAML
集群调度组件为用户提供YAML示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的YAML示例并根据需求进行相应修改后才可使用。
任务类型 |
硬件型号 |
模型 |
YAML文件名称 |
获取链接 |
说明 |
|---|---|---|---|---|---|
Ascend Job |
|
LLAMA2 |
pytorch_multinodes_acjob_910b.yaml |
示例默认使用2*8卡任务 |
|
Ascend Job |
|
LLAMA2 |
ms_multinodes_acjob_910b.yaml |
示例默认使用2*8卡任务 |
当前断点续训并未提供Atlas 900 A3 SuperPoD 超节点产品的示例YAML,用户可以在示例YAML中的labels下新增annotations字段即可。示例如下:
...
labels:
...
annotations:
sp-block: "32" # 逻辑超节点芯片数量,sp-block字段的详细说明,可以参见YAML参数说明。
...
父主题: 通过命令行使用