开发者
资源

训练前准备

  • 下载数据集
    1. 进入cifar10_download_and_extract.py所在路径
      cd ~/MindstudioProjects/MyTraining-tensorflow/models_msft/models_npu_*/official/resnet/
    2. 执行如下命令下载数据集
      python3 cifar10_download_and_extract.py

      数据集默认下载到/tmp/cifar10_data路径下。

  • 准备单Device的资源信息配置文件。

    单Device的资源信息配置文件中需包含一个Device资源,文件名举例:rank_table_1p.json,配置文件示例如下(实际调用时,需删除json的注释信息):

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    {
    "server_count":"1",        //server数目此例中只有一个AI server
    "server_list":
    [
       {
            "device":[
                           {
                            "device_id":"2",     //昇腾AI处理器物理ID取值范围[0-7]以指定2卡为例
                            "device_ip":"192.168.1.8",    //昇腾AI处理器集成网卡IP可执行cat /etc/hccn.conf获取网卡IP查询到的address_xxxx对应device_id即为网卡IP
                            "rank_id":"0"        // rank的标识rankID从0开始
                            }
                      ],
             "server_id":"10.0.0.10"     //server标识以点分十进制表示IP字符串
        }
    ],
    "status":"completed",    // ranktable可用标识completed为可用
    "version":"1.0"    // ranktable模板版本信息,当前必须为"1.0"
    }