本章节指导用户在基于Atlas 训练系列产品的环境上创建yaml文件。

操作步骤

请根据使用须知里的介绍根据实际情况选择合适的yaml。

yaml示例为使用NFS的场景，NFS需要安装在存储节点，安装操作请参见安装NFS。

请从集群调度组件MindXDL-deploy仓库中“5.0.RC1”分支下载yaml文件，yaml文件说明如表1所示。

表1 任务类型与硬件型号对应yaml文件
任务类型	硬件型号	训练框架	yaml文件	获取yaml	说明
Volcano Job	Atlas 800 训练服务器	Tensorflow	a800_tensorflow_vcjob.yaml	根据所使用的框架类型和任务类型，获取yaml	示例默认为单机8卡任务。
		Pytorch	a800_pytorch_vcjob.yaml
		MindSpore	a800_mindspore_vcjob.yaml
	服务器（插Atlas 300T 训练卡）	Tensorflow	a300t_tensorflow_vcjob.yaml		示例默认为单机单卡任务。
		Pytorch	a300t_pytorch_vcjob.yaml
		MindSpore	a300t_mindspore_vcjob.yaml
Deployment	Atlas 800 训练服务器	Tensorflow	a800_tensorflow_deployment.yaml		示例默认为单机8卡任务。
		Pytorch	a800_pytorch_deployment.yaml
		MindSpore	a800_mindspore_deployment.yaml
	服务器（插Atlas 300T 训练卡）	Tensorflow	a300t_tensorlfow_deployment.yaml		示例默认为单机单卡任务。
		Pytorch	a300t_pytorch_deployment.yaml
		MindSpore	a300t_mindspore_deployment.yaml

将yaml文件上传至管理节点任意目录，并根据实际情况修改文件内容，部分参数说明如表2所示。

表2 yaml文件参数说明
参数	取值	说明
minAvailable	单机：1 分布式：N	N为节点个数，Deployment类型的任务不需要该参数，该参数建议与replicas保持一致。
replicas	单机：1 分布式：N	N为节点个数。
image	-	训练镜像名称，请根据实际修改（用户在准备训练镜像章节制作或者获取的镜像名称）。
host-arch	Arm环境：huawei-arm x86_64环境：huawei-x86	需要运行训练任务的节点架构，请根据实际修改。分布式任务中，请确保运行训练任务的节点架构相同。
accelerator-type	Atlas 800 训练服务器（NPU满配）：module Atlas 800 训练服务器（NPU半配）：half 服务器（插Atlas 300T 训练卡）：card	根据需要运行训练任务的节点类型，选取不同的值。（可选）如果节点是Atlas 800 训练服务器（NPU满配），可以省略该标签。
huawei.com/Ascend910	Atlas 800 训练服务器（NPU满配）：单机单芯片：1 单机多芯片：2、4、8 分布式：1、2、4、8 Atlas 800 训练服务器（NPU半配）：单机单芯片：1 单机多芯片：2、4 分布式：1、2、4 服务器（插Atlas 300T 训练卡）：单机单芯片：1 单机多芯片：2 分布式：2	请求的NPU数量，请根据实际修改。

以a800_tensorflow_vcjob.yaml为例，两个Atlas 800 训练服务器节点，以执行2*8芯片分布式训练任务，修改如下。

...
minAvailable: 2                # 2节点分布式任务则为2，N节点则为N。Deployment类型的任务不需要该参数
...
- name: "default-test"
    replicas: 2                  # N节点分布式场景为N，且requests字段的NPU的数目为8
    template:
      metadata:
...
          resources:  
            requests:
              huawei.com/Ascend910: 8          # 需要的NPU芯片个数为8。可在下方添加行，配置memory、cpu等资源
            limits:
              huawei.com/Ascend910: 8          # 目前需要和上面requests保持一致
...

若需要配置CPU、Memory资源，请参见如下示例手动添加“cpu”和“memory”参数和对应的参数值，具体数值请根据实际情况配置。

...
          resources:  
            requests:
              huawei.com/Ascend910: 8
              cpu: 100m                # means 100 milliCPU.For example 100m CPU, 100 milliCPU, and 0.1 CPU are all the same
              memory: 100Gi            # means 100*2³⁰ bytes of memory
            limits:
              huawei.com/Ascend910: 8
              cpu: 100m
              memory: 100Gi
...

若需要分布式任务调度到不同节点，请参考如下示例。

...
          affinity:
            podAntiAffinity:
              requiredDuringSchedulingIgnoredDuringExecution:
              - labelSelector:
                  matchExpressions:
                    - key: volcano.sh/job-name                    # vcjob固定字段，deployment的key为deploy-name
                      operator: In                                # 固定字段
                      values:
                        - default-test-mindspore                 # 需要和任务名一致
                topologyKey: kubernetes.io/hostname
...

修改训练脚本、代码的挂载路径。

从昇腾镜像仓库拉取的基础镜像中不包含训练脚本、代码等文件，训练时通常使用挂载的方式将训练脚本、代码等文件映射到容器内挂载的方式将训练脚本、代码等文件映射到容器内。

          volumeMounts:
          - name: ascend-910-config
            mountPath: /user/serverid/devindex/config
          - name: code
            mountPath: /job/code/                     # 容器中训练脚本路径
          - name: data
            mountPath: /job/data                      # 容器中训练数据集路径
          - name: output
            mountPath: /job/output                    # 容器中训练输出路径

如下所示，yaml中训练命令bash train_start.sh后跟的三个参数依次为容器内训练代码目录、输出目录（其中包括生成日志重定向文件以及TensorFlow框架模型文件）、启动脚本相对代码目录的路径。之后的以“--”开头的参数为训练脚本需要的参数。单机和分布式训练脚本、脚本参数可参考模型脚本来源处的模型说明修改。

TensorFlow命令参数

...
command:
- "/bin/bash"
- "-c"
- "cd /job/code/ResNet50_for_TensorFlow_2.6_code/scripts;chmod +x train_start.sh;bash train_start.sh /job/code/ResNet50_for_TensorFlow_2.6_code/ /job/output/ tensorflow/resnet_ctl_imagenet_main.py --data_dir=/job/data/imagenet_TF/  --distribution_strategy=one_device --use_tf_while_loop=true  --epochs_between_evals=1 --skip_eval --enable_checkpoint_and_export ..."# 此处省略部分参数
...

PyTorch命令参数

...
command:
- "/bin/bash"
- "-c"
- "cd /job/code/ResNet50_for_PyTorch_1.8_code/scripts;chmod +x train_start.sh;bash train_start.sh /job/code/ResNet50_for_PyTorch_1.8_code/ /job/output/ DistributedResnet50/main_apex_d76_npu.py --data=/job/data/resnet50/imagenet --seed=49 --worker=128  --print-freq=1 --dist-url='tcp://127.0.0.1:50000' --dist-backend='hccl' --multiprocessing-distributed --benchmark=0 --device='npu' ..."# 此处省略部分参数
...

MindSpore命令参数

...
command:
- "/bin/bash"
- "-c"
- "cd /job/code/ResNet50_for_MindSpore_2.0.0-alpha_code/scripts;chmod +x train_start.sh;bash train_start.sh /job/code/ResNet50_for_MindSpore_2.0.0-alpha_code/ /job/output/ train.py --data_path=/job/data/imagenet/train --config_path=/job/code/ResNet50_for_MindSpore_2.0.0-alpha_code/config/resnet50_imagenet2012_config.yaml  --output_path=/job/output/ --run_distribute=True --device_num=8 ..."# 此处省略部分参数
...

以TensorFlow命令参数为例。

/job/code/ResNet50_for_TensorFlow_2.6_code/：其中/job/code/为步骤3中用户自定义的容器中训练脚本路径，ResNet50_for_TensorFlow_2.6_code为准备模型脚本章节的步骤3中用户自定义的训练代码目录。
/job/output/：步骤3中用户自定义的容器中训练数据集路径。
tensorflow/resnet_ctl_imagenet_main.py：启动训练脚本路径。

yaml为使用NFS场景，需要指定NFS服务器地址、训练数据集路径、脚本路径和训练输出路径，请根据实际修改。如果不使用NFS请根据K8s相关指导自行修改。

...
          volumeMounts:
          - name: ascend-910-config
            mountPath: /user/serverid/devindex/config
          - name: code
            mountPath: /job/code/                     # 容器中训练脚本路径
          - name: data
            mountPath: /job/data                      # 容器中训练数据集路径
          - name: output
            mountPath: /job/output                    # 容器中训练输出路径
...
        volumes:
...
        - name: code
          nfs:
            server: 127.0.0.1        # NFS服务器IP地址。
            path: "xxxxxx"           # 配置训练脚本路径
        - name: data
          nfs:
            server: 127.0.0.1
            path: "xxxxxx"           # 配置训练集路径
        - name: output
          nfs:
            server: 127.0.0.1
            path: "xxxxxx"           # 设置脚本相关配置模型保存路径
...

创建任务yaml

操作步骤