准备任务YAML
集群调度组件为用户提供YAML示例,用户需要根据使用的功能、模型类型和任务类型等,并根据使用的故障处理模式,选择相应的YAML示例并根据需求进行相应修改后才可使用。
任务类型  | 
硬件型号  | 
模型  | 
YAML文件名称  | 
获取链接  | 
说明  | 
|---|---|---|---|---|---|
Ascend Job  | 
  | 
LLAMA2  | 
pytorch_multinodes_acjob_910b.yaml  | 
示例默认使用2*8卡任务  | 
|
Ascend Job  | 
  | 
LLAMA2  | 
ms_multinodes_acjob_910b.yaml  | 
示例默认使用2*8卡任务  | 
 当前断点续训并未提供Atlas 900 A3 SuperPoD 超节点产品的示例YAML,用户可以在示例YAML中的labels下新增annotations字段即可。示例如下:
...
  labels: 
...
  annotations:
    sp-block: "32"   # 逻辑超节点芯片数量,sp-block字段的详细说明,可以参见YAML参数说明。
...
父主题: 通过命令行使用