准备模型脚本

本节中使用的数据集为imagenet2012数据集(注:如使用该数据集需按照数据集提供者的使用规范使用)。TensorFlow框架请参考训练前准备数据集准备部分内容进行数据集预处理。

根据模型框架选择对应示例。

TensorFlow

  1. 下载TensorFlow代码仓中master分支中的“ResNet50_ID0360_for_TensorFlow2.X”作为训练代码,请根据该模型代码TensorFlow版本选择训练镜像中的TensorFlow版本包。
  2. 管理员用户上传数据集到存储节点。

    1. 进入“/data/atlas_dls/public”目录,将数据集上传到任意位置,如“/data/atlas_dls/public/dataset/resnet50/imagenet_TF”
      root@ubuntu:/data/atlas_dls/public/dataset/resnet50/imagenet_TF# pwd
      /data/atlas_dls/public/dataset/resnet50/imagenet_TF
    2. 执行du -sh命令,查看数据集大小。
      root@ubuntu:/data/atlas_dls/public/dataset/resnet50/imagenet_TF# du -sh
      42G

  3. 在本地解压1中下载的训练代码,将“ModelZoo-TensorFlow-master/TensorFlow2/built-in/cv/image_classification/”下的“ResNet50_ID0360_for_TensorFlow2.X”目录重命名为“ResNet50_for_TensorFlow_2.6_code/”目录。
  4. 进入“MindXDL-deploy”仓库,选择“5.0.RC1”分支。获取“samples/without-ranktable/tensorflow”目录中的“train_start.sh”文件,结合3中的“ResNet50_for_TensorFlow_2.6_code”目录,在host的“/data/atlas_dls/public/code”路径下,构造如下的目录结构。

    /data/atlas_dls/public/code/ResNet50_for_TensorFlow_2.6_code/
    ├──  scripts
    │   ├──  train_start.sh
    │    ...
    │        ...
    ├──  tensorflow
    │   ├──  resnet_ctl_imagenet_main.py
    │   ├──  resnet_model.py
    │   ├──  resnet_runnable.py
    │    ...
    │        ...
    ├──  benchmark.sh
    ├──  modelzoo_level.txt
     ...
    └──  requirements.txt

PyTorch

  1. 下载PyTorch代码仓中master分支的“ResNet50_for_PyTorch”作为训练代码。
  2. 自行准备ResNet-50对应的数据集,使用时请遵守对应规范。
  3. 管理员用户上传数据集到存储节点。

    1. 进入“/data/atlas_dls/public”目录,将数据集上传到任意位置,如“/data/atlas_dls/public/dataset/resnet50/imagenet”
      root@ubuntu:/data/atlas_dls/public/dataset/resnet50/imagenet# pwd
      /data/atlas_dls/public/dataset/resnet50/imagenet
    2. 执行du -sh命令,查看数据集大小。
      root@ubuntu:/data/atlas_dls/public/dataset/resnet50/imagenet# du -sh
      11G 

  4. 1中下载的训练代码解压到本地,将解压后的训练代码中“ModelZoo-PyTorch/PyTorch/built-in/cv/classification/ResNet50_for_PyTorch”目录重命名为“ResNet50_for_PyTorch_1.8_code/”目录。
  5. 进入“MindXDL-deploy”仓库,选择“5.0.RC1”分支。获取“samples/without-ranktable/pytorch”目录中的“train_start.sh”,结合4中的“ResNet50_for_PyTorch_1.8_code”目录,在host的“/data/atlas_dls/public/code”路径下,构造如下的目录结构。

    root@ubuntu:/data/atlas_dls/public/code/ResNet50_for_PyTorch_1.8_code/#
    ResNet50_for_PyTorch_1.8_code/
    ├── DistributedResnet50
    ├── infer
    ├── test
    ├── ...
    ├── Dockerfile
    ├── eval.sh
    ├── python2onx.py
    ├── pytorch_resnet50_apex.py
    └── scripts
         ├── train_start.sh

MindSpore

  1. 下载MindSpore代码仓中r2.0.0-alpha分支的“ResNet”代码作为训练代码。
  2. 自行准备ResNet-50对应的数据集,使用时请遵守对应规范。
  3. 管理员用户上传数据集到存储节点。

    1. 进入“/data/atlas_dls/public”目录,将数据集上传到任意位置,如“/data/atlas_dls/public/dataset/imagenet”
      root@ubuntu:/data/atlas_dls/public/dataset/imagenet# pwd
      /data/atlas_dls/public/dataset/imagenet
    2. 执行du -sh命令,查看数据集大小。
      root@ubuntu:/data/atlas_dls/public/dataset/imagenet# du -sh
      11G

  4. 在本地解压1中下载的训练代码,将“models/official/cv/”下的“resnet”目录重命名为“ResNet50_for_MindSpore_2.0_code”。后续步骤以“ResNet50_for_MindSpore_2.0_code”目录为例。
  5. 进入“MindXDL-deploy”仓库,选择“5.0.RC1”分支。获取“samples/without-ranktable/mindspore”目录中的“train_start.sh”文件,结合训练代码中“scripts”目录,在host上构造成如下的目录结构。

    root@ubuntu:/data/atlas_dls/public/code/ResNet50_for_MindSpore_2.0_code/scripts/#
    scripts/
    ├── docker_start.sh
    ├── run_standalone_train_gpu.sh
    ├── run_standalone_train.sh
     ...
    └── train_start.sh

  6. 进入“/data/atlas_dls/public/code/ResNet50_for_MindSpore_2.0_code/train.py”目录下,修改“train.py”对应部分,如下所示。

     ...
         if config.run_distribute:
             if target == "Ascend":
               #device_id = int(os.getenv('DEVICE_ID'))
               #ms.set_context(device_id=device_id)
                 ms.set_auto_parallel_context(device_num=config.device_num, parallel_mode=ms.ParallelMode.DATA_PARALLEL,
                                              gradients_mean=True)
                 set_algo_parameters(elementwise_op_strategy_follow=True)
                 if config.net_name == "resnet50" or config.net_name == "se-resnet50":
                     if config.boost_mode not in ["O1", "O2"]:
                         ms.set_auto_parallel_context(all_reduce_fusion_config=config.all_reduce_fusion_config)
                 elif config.net_name in ["resnet101", "resnet152"]:
                     ms.set_auto_parallel_context(all_reduce_fusion_config=config.all_reduce_fusion_config)
                 init()
             # GPU target
     ...