迁移示例

简介

下面介绍如何通过工具迁移ResNet50网络。

下载原始模型和数据集

  1. 从github下载ResNet50原始模型。

    git clone -b r1.13.0 https://github.com/tensorflow/models.git

    假设原始模型下载到了/root/models目录下,用户可以在/root/models/official/resnet/下查看到下载到的ResNet50原始脚本:

  2. 下载数据集。

    参考https://github.com/tensorflow/models/blob/r1.13.0/official/resnet/README.md的使用说明,下载数据集,具体操作为:

    cd /root/models/official/resnet/

    python cifar10_download_and_extract.py

    export PYTHONPATH="$PYTHONPATH:/root/models"

    数据集模型默认下载到/tmp/cifar10_data路径下。

使用迁移工具进行模型迁移

  1. 在运行环境上安装工具依赖。

    pip3 install pandas

    pip3 install xlrd==1.2.0

    pip3 install openpyxl

    pip3 install tkintertable

    pip3 install google_pasta

  2. 执行命令进行工具自动迁移。

    进入“tfplugin安装目录/tfplugin/latest/python/site-packages/npu_bridge/convert_tf2npu/”,执行如下命令可同时完成脚本扫描和自动迁移:

    python3 main.py -i /root/models/official/resnet/ -o /root/models/official/ -r /root/models/official/

  3. /root/models/official/report_npu_***下查看迁移报告。
  4. /root/models/official/output_npu_***下查看迁移后的脚本。

    并将原始脚本重命名,例如resnet_org,将迁移后的脚本重命名为resnet,从而保证脚本能顺利执行。

执行单Device训练

  1. 由于ResNet50原始训练脚本中使用了tf.data.Dataset对象的shard接口,因此在单Device上执行训练前必须准备单Device的资源信息配置文件。否则请跳过此步。

    单Device的资源信息配置文件中需包含一个Device资源,文件名举例:rank_table_1p.json,配置文件举例:
    {
    "server_count":"1", 
    "server_list":
    [
       {
            "device":[ 
                           {
                            "device_id":"0", 
                            "device_ip":"192.168.1.8", 
                            "rank_id":"0" 
                            }
                      ],
             "server_id":"10.0.0.10"
        }
    ],
    "status":"completed", 
    "version":"1.0"
    }

    配置文件的详细介绍请参考准备资源配置文件

  2. 配置训练进程启动依赖的环境变量。

    安装CANN软件后,使用CANN运行用户编译、运行时,需要以CANN运行用户登录环境,执行. ${install_path}/set_env.sh命令设置环境变量。除此之外,还需进行如下配置:
    # 当前脚本所在路径,例如:
    export PYTHONPATH="$PYTHONPATH:/root/models"
    
    export JOB_ID=10086        # 训练任务ID,用户自定义,仅支持大小写字母,数字,中划线,下划线。不建议使用以0开始的纯数字
    export ASCEND_DEVICE_ID=0  # 指定昇腾AI处理器的逻辑ID,单P训练也可不配置,默认为0,在0卡执行训练
    export RANK_ID=0           # 指定训练进程在集合通信进程组中对应的rank标识序号,单P训练固定配置为0
    export RANK_SIZE=1         # 指定当前训练进程对应的Device在本集群大小,单P训练固定配置为1
    export RANK_TABLE_FILE=/root/rank_table_1p.json # 如果用户原始训练脚本中使用了hvd接口或tf.data.Dataset对象的shard接口,需要配置,否则无需配置。

  3. 执行训练脚本拉起训练进程:

    python3 /root/models/official/resnet/cifar10_main.py

  4. 检查训练过程是否正常,Loss是否收敛。

  5. 训练结束后,在/tmp/cifar10_model下生成checkpoint文件。

在两个Device上执行分布式训练

  1. 准备包含两个Device的昇腾AI处理器资源信息配置文件,文件名举例:rank_table_2p.json,配置文件举例:

    {
    "server_count":"1",
    "server_list":
    [
       {
            "device":[
                           {
                            "device_id":"0", 
                            "device_ip":"192.168.1.8",
                            "rank_id":"0"
                            },
                            {
                             "device_id":"1",
                             "device_ip":"192.168.1.9",   // 两个Device需要处于同一网段,0卡和1卡为同一网段
                             "rank_id":"1"
                             }
                      ],
             "server_id":"10.0.0.10" 
        }
    ],
    "status":"completed",
    "version":"1.0"
    }

    配置文件的详细介绍请参考准备资源配置文件

  2. 在不同的shell窗口依次拉起不同的训练进程。

    拉起训练进程0:

    安装CANN软件后,使用CANN运行用户编译、运行时,需要以CANN运行用户登录环境,执行. ${install_path}/set_env.sh命令设置环境变量。并进行如下配置:
    export PYTHONPATH=/home/test:$PYTHONPATH
    export JOB_ID=10086
    export ASCEND_DEVICE_ID=0
    export RANK_ID=0
    export RANK_SIZE=2
    export RANK_TABLE_FILE=/home/test/rank_table_2p.json
    python3 /root/models/official/resnet/cifar10_main.py

    拉起训练进程1:

    安装CANN软件后,使用CANN运行用户编译、运行时,需要以CANN运行用户登录环境,执行. ${install_path}/set_env.sh命令设置环境变量。并进行如下配置:
    export PYTHONPATH=/home/test:$PYTHONPATH
    export JOB_ID=10086
    export ASCEND_DEVICE_ID=1
    export RANK_ID=1
    export RANK_SIZE=2
    export RANK_TABLE_FILE=/home/test/rank_table_2p.json
    python3 /root/models/official/resnet/cifar10_main.py
    • 除了以上方式,您还可以通过自定义启动脚本通过循环方式依次拉起多个训练进程,具体样例请参考链接